13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python Статьи редакции

Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.

Книги об анализе и обработке данных

По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Но проблема в том, что данными можно манипулировать. Поэтому каждому аналитику стоит прочитать книгу «Голая статистика». Она напоминает известную «Как лгать при помощи статистики».

По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты. В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты.

Похожая по тематике книга, которую автор рекомендует, — «Все лгут. Поисковики, Big Data и интернет знают о вас всё».

В ней данные рассматриваются с позиции пользователей и аналитиков. Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове. Знание этого помогает аналитикам создавать точные модели.

Автор статьи советует книгу «Как правильно подать данные». Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.

Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.

В ней говорится не столько об использовании языка, сколько об общих проблемах анализа. В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык.

Книги о языке программирования R

Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык. Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка.

Тем не менее он включает в подборку несколько книг о языке R. Первая — классическая «Введение в статистическое обучение с примерами на языке R».

По словам автора, это одна из любимых книг многих аналитиков. Но для начинающих она может показаться перегруженной математическими терминами. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.

Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.

Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций». Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем.

Книги о языке программирования Python

В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.

Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».

Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности. В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python».

Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Практические решения для всего: от предварительной обработки данных до глубокого обучения».

TensorFlow

Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем». В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.

Книги о больших данных

Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra. Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах.

Автор обращает внимание на две книги, знакомящие с Hadoop. Первая — «Hadoop. Подробное руководство». Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор.

Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения. Программирование, масштабирование, поддержка».

Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.

Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:

0
23 комментария
Написать комментарий...
Семен Смирнов

Первые 2 книги НЕ об анализе данных

Дальше боязно листать

Ответить
Развернуть ветку
Mikhail

Кто-то в 2к19 всё ещё использует R для анализа данных?

Ответить
Развернуть ветку
Nikita Zhiltsov

Конечно, профессиональные статистики (statisticians, not data scientists). В том числе, которые развивают новые методы и модели. В R до сих пор реализовано больше продвинутых статистических методов.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Mikhail

Какой-нибудь паскаль тоже в институтах преподают. Это не делает его нужным.

За последние лет 5 весь мир дата-сайнса переехал на python. R другой по философии и с огромным количеством ограничений. Зачем его хоть как-то использовать сегодня - непонятно.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Mikhail

Вы пробовали работать с матрицами, которые занимают гигабайты в памяти? R сдается на размерностях в несколько тысяч.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Mikhail

Вы видимо из разряда теоретиков, которые о реалях R знают на уровне школьных задачек. Матрица влазит в память, проблема в интерпретаторе (мы же про реальные практические имплементации говорим), который от этого сходит с ума. CPython прекрасно работает всегда.

Поэтому как только появилось достаточно имплементаций алгоритмов поверх numpy и pandas, то все разумные люди перебрались туда. Тут и начался расцвет python и закат R.

А вы можете продолжать жить в мире розовых пони, у которых нет проблем с R

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Mikhail

Смотрю вы и интеллектом от коня не далеко ушли.

Я не вижу смысла хоть что-то вам ещё отвечать. Вы, очевидно, совсем не в теме реального использования продуктов на практике, раз не понимаете разницу между интерпретатором и языком программирования.

Минусуйте и идите лесом

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Vit Cheremisinov

я)

Ответить
Развернуть ветку
uncle_dekard

Для дата сайенса вроде как phyton и правда поинтереснее выглядит (по словам сайентистов). Для использования в статистическом анализе и продуктовой аналитике в целом у R вообще проблем нет. Мы просто говорим о разных задачах, типа: «писать нейросети на питоне удобнее? Окей, а зачем аналитику писать нейросети вообще? Питон не нужОн» / «ML на R? В 2к19? Больные ублюдки»

Ответить
Развернуть ветку
Igor Kiselev

кто? в гарварде на биостатистике

Ответить
Развернуть ветку
Алексей

Желательно в формате FB2)

Ответить
Развернуть ветку
Стёпа Арепьев

Про хадуп и про статистику популярно мб и полезно, остальное нет. Талмуды типа Тибширани по машинному обучению имхо тоже не особо полезны с точки зрения изучения машинного обучения

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Александр Капцов
Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда