13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python
Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.
Книги об анализе и обработке данных
По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Но проблема в том, что данными можно манипулировать. Поэтому каждому аналитику стоит прочитать книгу «Голая статистика». Она напоминает известную «Как лгать при помощи статистики».
По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты. В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты.
Похожая по тематике книга, которую автор рекомендует, — «Все лгут. Поисковики, Big Data и интернет знают о вас всё».
В ней данные рассматриваются с позиции пользователей и аналитиков. Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове. Знание этого помогает аналитикам создавать точные модели.
Автор статьи советует книгу «Как правильно подать данные». Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.
Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.
В ней говорится не столько об использовании языка, сколько об общих проблемах анализа. В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык.
Книги о языке программирования R
Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык. Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка.
Тем не менее он включает в подборку несколько книг о языке R. Первая — классическая «Введение в статистическое обучение с примерами на языке R».
По словам автора, это одна из любимых книг многих аналитиков. Но для начинающих она может показаться перегруженной математическими терминами. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.
Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.
Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций». Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем.
Книги о языке программирования Python
В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.
Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».
Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности. В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python».
Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Практические решения для всего: от предварительной обработки данных до глубокого обучения».
TensorFlow
Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем». В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.
Книги о больших данных
Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra. Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах.
Автор обращает внимание на две книги, знакомящие с Hadoop. Первая — «Hadoop. Подробное руководство». Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор.
Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения. Программирование, масштабирование, поддержка».
Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.
Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:
- What REALLY is Data Science? Told by An Ex-Microsoft/FAANG Data Scientist.
- How Algorithms Can Become Unethical and Biased.
- How To Load Multiple Files With SQL.
- How To Develop Robust Algorithms.
- Dynamically Bulk Inserting CSV Data Into A SQL Server.
- 4 Must Have Skills For Data Scientists.
- SQL Best Practices — Designing An ETL Video
Хотя рассчитывает бизнес на обратное, пишет Business Insider.
«Турбулентность» на рынках может продолжиться, отмечает CNBC.
По версии следствия, она «приобрела свыше 127 млн рублей» в результате уклонения от уплаты налогов и легализовала деньги, купив недвижимость в Москве.
Главное из материала The Bell.
Он такой не один, пишет CNBC. Соискателям надоели «головоломки», оторванные от реальных задач. К тому же в работе использовать ИИ всё равно не запретят.
Если вы думаете, что зайти на маркетплейс — это сложно, то попробуйте открыть бизнес за границей. В 2025 году мир стал ещё более глобальным, но и подводных камней прибавилось. От визовых вопросов до культурных различий — всё это может превратить вашу мечту о международной экспансии в настоящий квест. Но не переживайте, мы здесь, чтобы помочь вам пр…
Первые 2 книги НЕ об анализе данных
Дальше боязно листать
Кто-то в 2к19 всё ещё использует R для анализа данных?
Конечно, профессиональные статистики (statisticians, not data scientists). В том числе, которые развивают новые методы и модели. В R до сих пор реализовано больше продвинутых статистических методов.
Комментарий недоступен