{"id":9185,"title":"\u0427\u0435\u0440\u043d\u0438\u043b\u0430 \u0438\u0437 \u0432\u044b\u0445\u043b\u043e\u043f\u043d\u044b\u0445 \u0433\u0430\u0437\u043e\u0432: \u043c\u0438\u0444 \u0438\u043b\u0438 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u044c?","url":"\/redirect?component=advertising&id=9185&url=https:\/\/vc.ru\/promo\/316632-odezhda-kotoraya-rastet-vmeste-s-rebenkom-biotoplivo-i-bizhuteriya-iz-chaynogo-griba&placeBit=1&hash=a88533bf78285d41072084482619c82803fd6598d1bcc2e142642ff721574ad7","isPaidAndBannersEnabled":false}

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python Статьи редакции

Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.

Книги об анализе и обработке данных

По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Но проблема в том, что данными можно манипулировать. Поэтому каждому аналитику стоит прочитать книгу «Голая статистика». Она напоминает известную «Как лгать при помощи статистики».

По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты. В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты.

Похожая по тематике книга, которую автор рекомендует, — «Все лгут. Поисковики, Big Data и интернет знают о вас всё».

В ней данные рассматриваются с позиции пользователей и аналитиков. Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове. Знание этого помогает аналитикам создавать точные модели.

Автор статьи советует книгу «Как правильно подать данные». Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.

Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.

В ней говорится не столько об использовании языка, сколько об общих проблемах анализа. В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык.

Книги о языке программирования R

Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык. Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка.

Тем не менее он включает в подборку несколько книг о языке R. Первая — классическая «Введение в статистическое обучение с примерами на языке R».

По словам автора, это одна из любимых книг многих аналитиков. Но для начинающих она может показаться перегруженной математическими терминами. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.

Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.

Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций». Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем.

Книги о языке программирования Python

В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.

Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».

Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности. В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python».

Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Практические решения для всего: от предварительной обработки данных до глубокого обучения».

TensorFlow

Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем». В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.

Книги о больших данных

Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra. Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах.

Автор обращает внимание на две книги, знакомящие с Hadoop. Первая — «Hadoop. Подробное руководство». Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор.

Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения. Программирование, масштабирование, поддержка».

Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.

Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:

0
23 комментария
Популярные
По порядку
Написать комментарий...

Первые 2 книги НЕ об анализе данных

Дальше боязно листать

3

Кто-то в 2к19 всё ещё использует R для анализа данных?

–3

Конечно, профессиональные статистики (statisticians, not data scientists). В том числе, которые развивают новые методы и модели. В R до сих пор реализовано больше продвинутых статистических методов.

2

Да. Его даже в институтах преподают.

0

Какой-нибудь паскаль тоже в институтах преподают. Это не делает его нужным.

За последние лет 5 весь мир дата-сайнса переехал на python. R другой по философии и с огромным количеством ограничений. Зачем его хоть как-то использовать сегодня - непонятно.

0

Можно пример ограниченности R?) хотя бы парочку, что можно такого сделать на питоне, чего нельзя на R?

1

Вы пробовали работать с матрицами, которые занимают гигабайты в памяти? R сдается на размерностях в несколько тысяч.

–2

перефразирую - если матрица не влезает в память - меняй язык программирования :D )))

0

Вы видимо из разряда теоретиков, которые о реалях R знают на уровне школьных задачек. Матрица влазит в память, проблема в интерпретаторе (мы же про реальные практические имплементации говорим), который от этого сходит с ума. CPython прекрасно работает всегда.

Поэтому как только появилось достаточно имплементаций алгоритмов поверх numpy и pandas, то все разумные люди перебрались туда. Тут и начался расцвет python и закат R.

А вы можете продолжать жить в мире розовых пони, у которых нет проблем с R

–2

Проблема в интерпретаторе))) Ржу аки конь!

1

Смотрю вы и интеллектом от коня не далеко ушли.

Я не вижу смысла хоть что-то вам ещё отвечать. Вы, очевидно, совсем не в теме реального использования продуктов на практике, раз не понимаете разницу между интерпретатором и языком программирования.

Минусуйте и идите лесом

–1

Пункт минуснуть - выполнен.
Просто хотел намекнуть, что интерпретатор напрямую с матрицами не работает) он лишь интерпретирует код такого незадачливого пользователя как вы и вызывает функции скомпилированных библиотек.

1

можно узнать - сколько времени вы потратили на исследование этого вопроса? )

0

Я после института складскую систему в одиночку написал на Delphi / DBISAM, но тогда он ещё популярным был.

И на R сам видел, люди работы выполняют. Почему нет, если это работает.

0

Для дата сайенса вроде как phyton и правда поинтереснее выглядит (по словам сайентистов). Для использования в статистическом анализе и продуктовой аналитике в целом у R вообще проблем нет. Мы просто говорим о разных задачах, типа: «писать нейросети на питоне удобнее? Окей, а зачем аналитику писать нейросети вообще? Питон не нужОн» / «ML на R? В 2к19? Больные ублюдки»

–1

кто? в гарварде на биостатистике

–1

Желательно в формате FB2)

2

Про хадуп и про статистику популярно мб и полезно, остальное нет. Талмуды типа Тибширани по машинному обучению имхо тоже не особо полезны с точки зрения изучения машинного обучения

0

Всё это хорошо, но могли бы дать ссылки на переведённые, русскоязычные, книги.

0

Еще неплохая подборка есть от издательства Питер.

0
Читать все 23 комментария
Илон Маск отправил сотрудникам письмо о риске банкротства SpaceX из-за медленного производства двигателей — CNBC Статьи редакции

Компании нужно ускориться, чтобы запускать ракеты минимум раз в две недели в 2022 году, написал Маск.

Яндекс такси не проставил статус золото водителю

Не первый год регулярно беру машину в аренду

И вот снова Яндекс веселит

Выполнил за ноябрь план по баллам на золото, а присвоили серебро, при этом поддержка говорит, что все так и должно быть и изменить невозможно

«Яндекс» попросил ЦБ «принять меры» из-за фальшивого сайта «Яндекс-банка» Статьи редакции

Домен зарегистрировало частное лицо на следующий день после объявления о переименовании «Акрополя».

Онлайн-санаторий для сотрудников: как помочь команде справиться с выгоранием

Чтобы поддержать команду, мы собрали эффективные инструменты для борьбы с эмоциональным выгоранием и объединили их в стенах виртуального санатория «Источник». Рассказываем, как пришли к созданию собственной экосистемы для поддержки сотрудников, и почему это действительно важно.

На сайтах с эквайрингом от ПСБ появился Yandex Pay

Покупатели с аккаунтом «Яндекса» смогут оплачивать покупки, не вводя данные карты.

Ozon полностью игнорирует мой возврат с 18 ноября

Итак, пришло мое время написать пост на vc.ru. Все остальные способы перепробовал, осталась последняя надежда.

Microsoft выпустила традиционный «уродливый» рождественский свитер, посвящённый «Сапёру» Статьи редакции

Компания каждый год выпускает вещи, стилизованные под свои продукты.

О прекрасном: графовая аналитика в 3D

Порой Data Scientist’ам приходится иметь дело с графами. Чаще всего это дело не такое уж и сложное, но бывают разногласия, которые начинаются при представлении результатов заказчику данного графа, ведь у каждого своё представлении о прекрасном. Особенно, когда дело касается расположения узлов.

Kornia - Python библиотека для обработки изображений в задачах CV

В этой статье я хотел бы познакомить читателей с библиотекой для ЯП python — Kornia, имеющей богатый функционал в области computer vision. Библиотека написана с использованием pytorch, в ее основе лежат готовые решения, такие как torchvision, PIL, skimage, tf.image, OpenCV. В Kornia реализована возможность выполнения вычислений не только с…

Корпоративный проект в Казахстане

Юридическая фирма «Надмитов, Иванов и Партнеры» успешно представляла интересы приобретателя по сделке приобретения 100% долей в уставном капитале общества, крупного производителя битумных материалов в Казахстане, регулируемой по российскому праву.

null