13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

Книги об анализе и обработке данных

По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Но проблема в том, что данными можно манипулировать. Поэтому каждому аналитику стоит прочитать книгу «Голая статистика». Она напоминает известную «Как лгать при помощи статистики».

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты. В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты.

Похожая по тематике книга, которую автор рекомендует, — «Все лгут. Поисковики, Big Data и интернет знают о вас всё».

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

В ней данные рассматриваются с позиции пользователей и аналитиков. Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове. Знание этого помогает аналитикам создавать точные модели.

Автор статьи советует книгу «Как правильно подать данные». Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.

Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.

В ней говорится не столько об использовании языка, сколько об общих проблемах анализа. В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык.

Книги о языке программирования R

Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык. Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка.

Тем не менее он включает в подборку несколько книг о языке R. Первая — классическая «Введение в статистическое обучение с примерами на языке R».

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

По словам автора, это одна из любимых книг многих аналитиков. Но для начинающих она может показаться перегруженной математическими терминами. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.

Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.

Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций». Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем.

Книги о языке программирования Python

В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.

Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности. В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python».

Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Практические решения для всего: от предварительной обработки данных до глубокого обучения».

TensorFlow

Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем». В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.

Книги о больших данных

Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra. Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах.

Автор обращает внимание на две книги, знакомящие с Hadoop. Первая — «Hadoop. Подробное руководство». Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор.

Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения. Программирование, масштабирование, поддержка».

Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.

Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:

2020
23 комментария

Первые 2 книги НЕ об анализе данных

Дальше боязно листать

3

Кто-то в 2к19 всё ещё использует R для анализа данных?

3

Конечно, профессиональные статистики (statisticians, not data scientists). В том числе, которые развивают новые методы и модели. В R до сих пор реализовано больше продвинутых статистических методов.

4

Комментарий недоступен

1

Для дата сайенса вроде как phyton и правда поинтереснее выглядит (по словам сайентистов). Для использования в статистическом анализе и продуктовой аналитике в целом у R вообще проблем нет. Мы просто говорим о разных задачах, типа: «писать нейросети на питоне удобнее? Окей, а зачем аналитику писать нейросети вообще? Питон не нужОн» / «ML на R? В 2к19? Больные ублюдки»

кто? в гарварде на биостатистике