вторник, 3 мая 2016 г.

Специализация "Машинное обучение и анализ данных" на coursera.org

Недавно на coursera.org стартовала специализация Машинное обучение и анализ данных от МФТИ и Яндекса. По итогам прослушивания первых 3 курсов (всего их будет 5 + финальный проект) могу сказать, что это по совокупности характеристик едва ли не лучшие курсы из ~20 пройденных мной. Очень рекомендую всем интересующимся темой.

Официальное описание:
Специализация покрывает основные темы, необходимые специалисту в науке о данных: современные методы классификации и регрессии, поиска структуры в данных, проведения экспериментов, построения выводов, базовую фундаментальную математику, благодаря которой они работают, а также основы программирования на Python. В центре внимания — типовые задачи машинного обучения и анализа данных: мы разберём, как построить рекомендательную систему, оценить эмоциональную окраску текста, спрогнозировать спрос на товар, оценить вероятность клика по рекламе, предсказать победителя битвы в онлайн-игре, оценить кредитоспособность клиента банка, поставить диагноз по данным генетических анализов пациента. Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач. В конце обучения вас ждет финальный проект, в рамках которого вы построите свою собственную систему, решающую один из важных для бизнеса типов задач. Результатом будет наглядная работающая модель, которую вы сможете использовать в вашей повседневной работе или продемонстрировать на собеседовании. Мы уверены, что наша специализация поможет вам стать специалистом в науке о данных — одной из самых востребованных и активно развивающихся областей знаний!
1. Математика и Python для анализа данных - изложены основы языка Python, дается обзор основных библиотек для работы с данными, визуализации и машинного обучения; рассмотрены основные понятия матричной алгебры, что такое производные и градиенты, их применение в алгоритмах машинного обучения, а также основные понятия теории вероятностей и статистики. 

2. Обучение на размеченных данных - курс примерно соответствует по содержанию классической книге An Introduction to Statistical Learning и не менее классическому одноименному видеокурсу. Материал изложен последовательно и весьма углубленно, т.е. с математикой и выводом некоторых формул. При этом математика остается доступной и понятной, ничего "из воздуха" не берется (такого нету). Авторы используют общепринятую (насколько это вообще возможно) нотацию, что тоже большой плюс. В целом это действительно учебник и руководство, а не набор слайдов с комментариями.

3. Поиск структуры в данных - рассматриваются вопросы обучения на неразмеченных данных (обучение без учителя), такие как кластеризация, понижение размерности и поиск аномалий. Материал на уровне предыдущего курса, хотя сам курс значительно короче, в нем меньше практики и больше математики, причем здесь уже многие вещи придется принимать на веру - рассматриваемые темы в вычислительном смысле являются более сложными. 

4. Построение выводов по данным и 5. Прикладные задачи анализа данных - пока недоступны.

Отдельно скажу про программирование. В качестве языка был выбран Python. Python я знаю похуже, а R - получше, но в данном случае использование Python для меня стало еще одним плюсом этих курсов. Логика в пакете scikit-learn абсолютно такая же, как в caret, многие вещи понятны просто по аналогии. Примеры очень продуманные, никаких ненужных наворотов и специфических особенностей языка не используется, в лекциях все действия подробно описываются. Плюс все ноутбуки можно скачать и повторить все самому. Плохо только, что используется Python 2.7, под третью версию код нужно немного адаптировать.

P.s. Курсы платные, но все материалы доступны и без денег. За деньги дополнительно получаешь возможность сдавать задания для самостоятельной работы и сертификат. 

2 комментария:

  1. На Coursera есть возможность запросить матпомощь. Тратишь 10 минут на текст (который можно просто прогнать через гугл переводчик). И указываешь зарплату в долларах (которая в России, обычно, не очень). Вуаля. Пара минут - и ты бесплатно занимаешься на платиной специализации (курсе).

    ОтветитьУдалить
  2. Список книг, видео и курсов по машинному обучению и математике, всё на русском языке. Большая, качественная подборка. Почти все pdf'ки книг гуглятся.
    https://ru.stackoverflow.com/a/683632

    ОтветитьУдалить