суббота, 19 сентября 2015 г.

Рецензия на две книги по анализу данных и машинному обучению с использованием Python

1. Маккинли У. Python и анализ данных

В имени автора - опечатка, на обложке он Маккинни, а внутри книги - Маккинли.
Книга практически не содержит информации о машинном обучении или о классической статистике. Вместо этого автор сконцентировался на вопросах трансформации данных и их визуализации, а также на особенностях реализации структур для хранения данных в Python.
Рассмотрены библиотеки NumPy, pandas и Matplotlib, а также основы работы в IPython Notebook. В начале книги есть руководство по установке всего, что требуется для повторения примеров из книги; в конце - небольшая глава "Основы языка Python", полезная прежде всего для повторения ранее изученного по более фундаментальным учебникам по программированию.
В качестве практических примеров преимущественно используется анализ временных рядов.
Перевод качественный, не нашел даже, к чему придраться.


2. Коэльо Л. Построение систем машинного обучения на языке Python

Эта книга значительно меньше по объему, чем предыдущая, но содержательно более насыщенная. Тут нет никаких "введений в программирование" или описаний технической стороны работы функций. Библиотеки NumPy, SciPy и Matplotlib рассмотрены обзорно, не вдаваясь в подробности; далее работа идет с использованием scikit-learn и других библиотек, реализующих алгоритмы машинного обучения.
Рассматриваются достаточно интересные примеры, среди которых: классификация аудиозаписей; анализ эмоциональной окраски сообщений; машинное зрение. Уделено внимание таким важным подходам, как регуляризация и понижение размерности. Подчеркивается необходимость использования кросс-валидации (перекрестной проверки), в том числе двухуровневой для случаев, когда требуется оценить способность модели к обобщению. Конечно, информация дается все в том же обзорном формате; больше подробностей можно найти в книгах Machine Learning: The Art and Science of Algorithms that Make Sense of Data и The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition.
Последняя глава - про облачные вычисления и использование Amazon Web Services - полезна для работающих с "большими данными".
Иллюстрации содержат всю необходимую наглядную информацию, а вот фрагменты кода даны с большими сокращениями, поэтому нужно использовать полные скрипты из репозитория.
Перевод особых нареканий не вызывает, опечаток практически нет, но мягкая обложка смотрится несолидно.

Рекомендую обе книги всем, кто интересуется анализом данных и машинным обучением (не ограничиваясь python-программистами).

Комментариев нет:

Отправить комментарий