13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python Материал редакции

Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.

В закладки
Аудио

Книги об анализе и обработке данных

По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Но проблема в том, что данными можно манипулировать. Поэтому каждому аналитику стоит прочитать книгу «Голая статистика». Она напоминает известную «Как лгать при помощи статистики».

По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты. В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты.

Похожая по тематике книга, которую автор рекомендует, — «Все лгут. Поисковики, Big Data и интернет знают о вас всё».

В ней данные рассматриваются с позиции пользователей и аналитиков. Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове. Знание этого помогает аналитикам создавать точные модели.

Автор статьи советует книгу «Как правильно подать данные». Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.

Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.

В ней говорится не столько об использовании языка, сколько об общих проблемах анализа. В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык.

Книги о языке программирования R

Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык. Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка.

Тем не менее он включает в подборку несколько книг о языке R. Первая — классическая «Введение в статистическое обучение с примерами на языке R».

По словам автора, это одна из любимых книг многих аналитиков. Но для начинающих она может показаться перегруженной математическими терминами. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.

Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.

Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций». Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем.

Книги о языке программирования Python

В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.

Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».

Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности. В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python».

Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Практические решения для всего: от предварительной обработки данных до глубокого обучения».

TensorFlow

Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем». В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.

Книги о больших данных

Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra. Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах.

Автор обращает внимание на две книги, знакомящие с Hadoop. Первая — «Hadoop. Подробное руководство». Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор.

Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения. Программирование, масштабирование, поддержка».

Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.

Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:

{ "author_name": "Алина Окунева", "author_type": "self", "tags": ["\u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430"], "comments": 21, "likes": 35, "favorites": 319, "is_advertisement": false, "subsite_label": "books", "id": 65345, "is_wide": false, "is_ugc": true, "date": "Tue, 23 Apr 2019 16:43:24 +0300", "is_special": false }
0
{ "id": 65345, "author_id": 258318, "diff_limit": 1000, "urls": {"diff":"\/comments\/65345\/get","add":"\/comments\/65345\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/65345"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 345049, "last_count_and_date": null }
21 комментарий
Популярные
По порядку
Написать комментарий...
3

Первые 2 книги НЕ об анализе данных

Дальше боязно листать

Ответить
2

Желательно в формате FB2)

Ответить
–3

Кто-то в 2к19 всё ещё использует R для анализа данных?

Ответить
2

Конечно, профессиональные статистики (statisticians, not data scientists). В том числе, которые развивают новые методы и модели. В R до сих пор реализовано больше продвинутых статистических методов.

Ответить
0

Да. Его даже в институтах преподают.

Ответить
1

Какой-нибудь паскаль тоже в институтах преподают. Это не делает его нужным.

За последние лет 5 весь мир дата-сайнса переехал на python. R другой по философии и с огромным количеством ограничений. Зачем его хоть как-то использовать сегодня - непонятно.

Ответить
1

Можно пример ограниченности R?) хотя бы парочку, что можно такого сделать на питоне, чего нельзя на R?

Ответить
–1

Вы пробовали работать с матрицами, которые занимают гигабайты в памяти? R сдается на размерностях в несколько тысяч.

Ответить
0

перефразирую - если матрица не влезает в память - меняй язык программирования :D )))

Ответить
0

Вы видимо из разряда теоретиков, которые о реалях R знают на уровне школьных задачек. Матрица влазит в память, проблема в интерпретаторе (мы же про реальные практические имплементации говорим), который от этого сходит с ума. CPython прекрасно работает всегда.

Поэтому как только появилось достаточно имплементаций алгоритмов поверх numpy и pandas, то все разумные люди перебрались туда. Тут и начался расцвет python и закат R.

А вы можете продолжать жить в мире розовых пони, у которых нет проблем с R

Ответить
1

Проблема в интерпретаторе))) Ржу аки конь!

Ответить
0

Смотрю вы и интеллектом от коня не далеко ушли.

Я не вижу смысла хоть что-то вам ещё отвечать. Вы, очевидно, совсем не в теме реального использования продуктов на практике, раз не понимаете разницу между интерпретатором и языком программирования.

Минусуйте и идите лесом

Ответить
1

Пункт минуснуть - выполнен.
Просто хотел намекнуть, что интерпретатор напрямую с матрицами не работает) он лишь интерпретирует код такого незадачливого пользователя как вы и вызывает функции скомпилированных библиотек.

Ответить
0

можно узнать - сколько времени вы потратили на исследование этого вопроса? )

Ответить
0

Я после института складскую систему в одиночку написал на Delphi / DBISAM, но тогда он ещё популярным был.

И на R сам видел, люди работы выполняют. Почему нет, если это работает.

Ответить
–1

Для дата сайенса вроде как phyton и правда поинтереснее выглядит (по словам сайентистов). Для использования в статистическом анализе и продуктовой аналитике в целом у R вообще проблем нет. Мы просто говорим о разных задачах, типа: «писать нейросети на питоне удобнее? Окей, а зачем аналитику писать нейросети вообще? Питон не нужОн» / «ML на R? В 2к19? Больные ублюдки»

Ответить
0

Про хадуп и про статистику популярно мб и полезно, остальное нет. Талмуды типа Тибширани по машинному обучению имхо тоже не особо полезны с точки зрения изучения машинного обучения

Ответить
0

Всё это хорошо, но могли бы дать ссылки на переведённые, русскоязычные, книги.

Ответить
0

Еще неплохая подборка есть от издательства Питер.

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ] { "page_type": "default" }