Чтобы смотреть на данные как детектив: небольшая подборка каналов и книг для начинающего дата-аналитика

За последние два года я не узнал ничего революционного с точки зрения техник исследования данных. Зато стал неплохим сыщиком, который обращает внимание на контекст. И по собеседованиям в нашей компании вижу, что уровень дата-аналитика и профессиональный рост связаны прежде всего с «детективными» навыками, которые скорее «софт», чем «хард».

Чтобы смотреть на данные как детектив: небольшая подборка каналов и книг для начинающего дата-аналитика

Из-за огромного спроса на аналитиков данных растет количество курсов и программ, где обучают Python и SQL, рассказывают, как автоматизировать рутинные задачи и рисовать дашборды. Однако наша работа строится не только на технических знаниях.

Мои более опытные коллеги, когда помогают джунам, часто просят найти нестандартный подход к решению задачи, придумать необычную гипотезу, примерить роль других людей — и посмотреть на свои дашборды, скажем, глазами руководителя отдела логистики в Мурманске. Иными словами, вести себя, как детектив.

Я Слава Зборовский, Middle Data Analyst в DataArt. У меня и моих коллег нет универсального рецепта, как стать детективом данных. Но я могу поделиться подборкой для постепенного формирования нужных навыков — как будто отвечая на вопрос знакомого начинающего дата-аналитика: «Слава, какие 5–7 книг или телеграм-каналов посоветуешь?».

Сообщества и каналы

Open Data Science — одно из крупнейших и активных DS-сообществ. Чуть ли не самая широкая дверь в мир анализа данных.

Подключайтесь к Slack — здесь главная тусовка
Подключайтесь к Slack — здесь главная тусовка

В сообществе можно подсмотреть разные подходы к работе с данными, найти ответы на вопрос любой сложности. Slack сообщества работает как хороший технический форум. Если кто-то пишет: «Я не знаю, как это сделать, помогите», — один из первых ответов будет примерно таким: «А зачем это вообще делать, лучше поступить вот так, смотри...».

Reveal The Data телеграм-канал и сайт Ромы Бунина, отвечающего за визуализацию и BI в Яндекс Go. На мой взгляд, это, в первую очередь, источник вдохновения, куда полезно заходить каждый день и рассматривать правильные дашборды. Правильные — значит, ими удобно пользоваться, и они угадывают запросы пользователя, опережают их. Благодаря насмотренности легче настроить фильтры так, чтобы у пользователя не искажалась картинка и сразу были видны слабые места в процессах.

В канале можно найти <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fleftjoin.ru%2Ftableau%2Fnewborn.html&postId=317275" rel="nofollow noreferrer noopener" target="_blank">ссылку</a> на дашборд первых месяцев жизни ребенка, родившегося у дата-аналитика
В канале можно найти ссылку на дашборд первых месяцев жизни ребенка, родившегося у дата-аналитика

Tableau’s viz of the Dayтелеграм-канал и сайт Public Tableau, бесплатной платформы для публичного обмена визуализаций данных. Эстетическое наслаждение от необычных и красивых визуализаций на каждый день. Лично мне помогает настроиться на работу по утрам.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fpublic.tableau.com%2Fapp%2Fprofile%2Fbo.mccready8742%2Fviz%2FWesAndersonFilms%2FWesAndersonFilms&postId=317275" rel="nofollow noreferrer noopener" target="_blank">Интерактивный дашборд</a> от фаната Уэса Андерсона
Интерактивный дашборд от фаната Уэса Андерсона

Чат Tableau. Если предыдущие два источника носят скорее вдохновляющий характер, в этом чате в основном — ответы на рутинные вопросы. Как правильно подобрать и настроить метрики? Как лаконично организовать источники данных? Очень полезно, если нужно, к примеру, быстро проверить оригинальную гипотезу, но не хватает знаний, как это реализовать технически.

Квалифицированный ответ в чате можно получить в режиме 24 х 7
Квалифицированный ответ в чате можно получить в режиме 24 х 7

Книги

«Статистика и котики», Владимир Савельев. Почти идеальный формат для трейни и даже джунов. Впрочем, проджект-менеджеру или разработчику тоже пригодится, если хочется понять, чем занимается коллега — аналитик данных.

Книга завлекает в мир анализа данных, объясняя невероятно простым языком и иллюстрациями из вселенной котиков и совят такие понятия, как меры центральной тенденции, статистические тесты, медианное значение и многое другое.

Книга вошла в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fnplus1.ru%2Fblog%2F2017%2F06%2F24%2Fenlightment2017-statistika-n-kotiki&postId=317275" rel="nofollow noreferrer noopener" target="_blank">лонг-лист</a> премии научно-популярной литературы «Просветитель» в 2017 году
Книга вошла в лонг-лист премии научно-популярной литературы «Просветитель» в 2017 году

«Голая статистика», Чарльз Уилан + «Фрикономика», Стивен Левитт, Стивен Дабнер. Эти две книги объединяет мысль, что к данным нужно подходить с предельной осторожностью. Авторы не согласны с утверждением, что статистика — самая большая ложь. Она не лжет, просто с ней неправильно работают, ведь кроме математики, в статистике должны быть въедливость, творчество, отличное знание контекста — тогда и выводы будут правдивы.

Как в большинстве трудов американских авторов, здесь главную мысль подкрепляют десятками примеров. Многие из них однотипны (хотя и интересны), поэтому их можно пропускать.

Почему-то автор называет статистику самой скучной наукой
Почему-то автор называет статистику самой скучной наукой

DAMA-DMBOK: Data Management Body of Knowledge (2-е издание). Настольная книга дата-аналитиков, объясняющая процессы: как собираются данные, где хранятся, кто должен за них отвечать и т. д. Можно сказать, что DAMA-DMBOK задает каркас нашей профессии и ее уместно сравнивать с конституцией.

Чтобы смотреть на данные как детектив: небольшая подборка каналов и книг для начинающего дата-аналитика

Недавно я присутствовал на встрече, где мой коллега, синьор, недовольный настойчиво предлагаемым решением, достал DAMA-DMBOK, нашел нужную страницу и сказал: «Так делать нельзя, потому что здесь написано, что так делать нельзя». И все согласились. В общем, даже в творческой профессии должен быть порядок.

Если хотите глубже погрузиться в Data Science, рекомендую несколько докладов на бесплатной онлайн-конференции IT NonStop (18–20 ноября 2021):

Всего в программе конференции — 50 докладов и воркшопов специалистов из Microsoft, AWS, NVIDIA, Ocado, Codete, Ciklum, Eleks, SoftServe, Toloka, Yandex, DataArt и других компаний.

2929
Начать дискуссию