среда, 31 января 2024 г.

Enefit - Predict Energy Behavior of Prosumers

Буквально только что закончилось соревнование Enefit - Predict Energy Behavior of Prosumers, в котором нужно было предсказывать объемы производства и потребления электроэнергии для субъектов в Эстонии, являющихся так называемыми просьюмерами (проще говоря, теми потребителями, которые еще и сами вырабатывают электричество при помощи своих солнечных станций). Это задача регрессии с 2 таргетами и честным оцениванием на новых данных в будущем, после окончания приема самбитов. Результаты будут не скоро - в конце апреля, поэтому по горячим следам пишу краткий отчет.

среда, 10 января 2024 г.

Ранняя остановка при обучении бустингов с mlr3, или Шах и мат, sklearn

Долгие годы использование ранней остановки при обучении бустингов было больной темой. С нативными интерфейсами xgboost/lightgbm/catboost проблем, разумеется, нет. Но что делать, если нужно затюнить гиперпараметры более сложной модели с обучаемыми этапами предварительной обработки (такими как импутация пропусков или таргет энкодинг), используя при этом (кросс)валидацию?

среда, 20 декабря 2023 г.

CAFA 5 Protein Function Prediction

Вступление

20 декабря 2023 г. закончилось соревнование CAFA5: активная фаза длилась с середины апреля по конец августа, затем ждали результатов на честном тестовом наборе данных, собранном после окончания приема сабмитов. Маленькая команда R-щиков в составе Антонины Долгоруковой и меня выступила достаточно успешно, заняв 16 место на публичном лидерборде и 13 на приватном, буквально на десятитысячных долях (kaggle-style) дотянув до золотой медали. Можно ознакомиться с кратким описанием решения, ну а в этом сообщении рассказывается максимально подробно, что делали в ходе соревнования, чему научились и на чем обломались.

суббота, 22 февраля 2020 г.

Перевод Feature Spec interface

Feature Spec interface

Перевод https://tensorflow.rstudio.com/guide/tfdatasets/feature_spec/

В этом руководстве будут рассмотрены основы использования интерфейса feature_spec() пакета tfdatasets. Перед прочтением полезно ознакомиться с R interface to TensorFlow Dataset API.

feature_spec() в R представляет собой дружественный интерфейс к модулю tf.feature_column в Python, который позволяет задавать преобразования и представления столбцов при работе с табличными данными. Реализация в R выполнена в едином стиле с пакетом recipes, краткий обзор возможностей которого был рассмотрен в публикации Инфраструктура для обучения моделей на R: rsample и recipes.