Широко известную в узких кругах базу UNIPROT можно скачать для локального использования в виде очень простых по своей структуре, но не очень удобных в использовании файлов. Например, goa_uniprot_gcrp.gpa.gz (contains all GO annotations for canonical accessions from the UniProt reference proteomes for all species, which provide one protein per gene. The reference proteomes comprise the protein sequences annotated in Swiss-Prot or the longest TrEMBL transcript if there is no Swiss-Prot record) содержит несколько строк комментариев, начинающихся с "!", за которыми следует таблица из 12 столбцов и 400 млн. строк без заголовков. В разархивированном виде файл весит 44 Гб, и для нормальной работы с ним в традиционном R-стиле с загрузкой таблицы целиком в ОЗУ нужно иметь в запасе ~128 Гб. Под катом решение в несколько строк кода, позволяющее снизить требования по памяти до пары Гб при сохранении приемлемой скорости работы.
пятница, 27 декабря 2024 г.
среда, 31 января 2024 г.
Enefit - Predict Energy Behavior of Prosumers
Буквально только что закончилось соревнование Enefit - Predict Energy Behavior of Prosumers, в котором нужно было предсказывать объемы производства и потребления электроэнергии для субъектов в Эстонии, являющихся так называемыми просьюмерами (проще говоря, теми потребителями, которые еще и сами вырабатывают электричество при помощи своих солнечных станций). Это задача регрессии с 2 таргетами и честным оцениванием на новых данных в будущем, после окончания приема самбитов. Результаты будут не скоро - в конце апреля, поэтому по горячим следам пишу краткий отчет.
среда, 10 января 2024 г.
Ранняя остановка при обучении бустингов с mlr3, или Шах и мат, sklearn
Долгие годы использование ранней остановки при обучении бустингов было больной темой. С нативными интерфейсами xgboost/lightgbm/catboost проблем, разумеется, нет. Но что делать, если нужно затюнить гиперпараметры более сложной модели с обучаемыми этапами предварительной обработки (такими как импутация пропусков или таргет энкодинг), используя при этом (кросс)валидацию? UPD содержимое поста устарело, по данной теме см. https://mlr3book.mlr-org.com/chapters/chapter15/predsets_valid_inttune.html