Буквально только что закончилось соревнование Enefit - Predict Energy Behavior of Prosumers, в котором нужно было предсказывать объемы производства и потребления электроэнергии для субъектов в Эстонии, являющихся так называемыми просьюмерами (проще говоря, теми потребителями, которые еще и сами вырабатывают электричество при помощи своих солнечных станций). Это задача регрессии с 2 таргетами и честным оцениванием на новых данных в будущем, после окончания приема самбитов. Результаты будут не скоро - в конце апреля, поэтому по горячим следам пишу краткий отчет.
Биостатистика и язык R
среда, 31 января 2024 г.
среда, 10 января 2024 г.
Ранняя остановка при обучении бустингов с mlr3, или Шах и мат, sklearn
Долгие годы использование ранней остановки при обучении бустингов было больной темой. С нативными интерфейсами xgboost/lightgbm/catboost проблем, разумеется, нет. Но что делать, если нужно затюнить гиперпараметры более сложной модели с обучаемыми этапами предварительной обработки (такими как импутация пропусков или таргет энкодинг), используя при этом (кросс)валидацию?
среда, 20 декабря 2023 г.
CAFA 5 Protein Function Prediction
Вступление
20 декабря 2023 г. закончилось соревнование CAFA5: активная фаза длилась с середины апреля по конец августа, затем ждали результатов на честном тестовом наборе данных, собранном после окончания приема сабмитов. Маленькая команда R-щиков в составе Антонины Долгоруковой и меня выступила достаточно успешно, заняв 16 место на публичном лидерборде и 13 на приватном, буквально на десятитысячных долях (kaggle-style) дотянув до золотой медали. Можно ознакомиться с кратким описанием решения, ну а в этом сообщении рассказывается максимально подробно, что делали в ходе соревнования, чему научились и на чем обломались.
четверг, 30 марта 2023 г.
суббота, 19 февраля 2022 г.
Вебинар по mlr3
запись https://www.youtube.com/watch?v=xXZp5kQ65us
материалы https://github.com/statist-bhfz/ml_mlr3
вторник, 7 апреля 2020 г.
суббота, 22 февраля 2020 г.
Перевод Feature Spec interface
Feature Spec interface
Перевод https://tensorflow.rstudio.com/guide/tfdatasets/feature_spec/
В этом руководстве будут рассмотрены основы использования интерфейса feature_spec()
пакета tfdatasets
. Перед прочтением полезно ознакомиться с R interface to TensorFlow Dataset API.
feature_spec()
в R представляет собой дружественный интерфейс к модулю tf.feature_column
в Python, который позволяет задавать преобразования и представления столбцов при работе с табличными данными. Реализация в R выполнена в едином стиле с пакетом recipes
, краткий обзор возможностей которого был рассмотрен в публикации Инфраструктура для обучения моделей на R: rsample и recipes.