Гарри Поттер и большие данные

Гарри Поттер и большие данные
Андрей Ларионов
Инженер и архитектор данных, преподаватель Mathshub

Привет! Я — Андрей Ларионов. Работаю с данными уже 20 лет. Начинал оператором БД, был аналитиком, а сейчас инженер и архитектор. Обожаю просто и понятно объяснять сложные вещи, используя аналогии из реальной жизни. Также я преподаю в школе Mathshub.
Я написал статью, где подробно объяснил различия между дата-профессиями на примере персонажей Гарри Поттера. Многие уже писали о разных дата-профессиях, но из недавних разговоров со знакомыми айтишниками стало понятно, что даже они не всегда понимают, чем отличаются дата-инженеры от дата-сайентистов.

Гарри Поттер и большие данные

Я увидел пример работы дата-инженера там, где меньше всего ожидал, а именно в книге Джоан Роулинг «Гарри Поттер и Кубок Огня». Это и побудило меня написать цикл статей (надеюсь, что все-таки будет цикл) о данных, используя в качестве иллюстраций примеры из книг английской писательницы. У меня есть подозрение, что для обычных людей мир данных выглядит примерно так же, как для дяди и тети Гарри выглядит мир магов и чародеев. Мы, разве что, в мантиях и шляпах остроконечных не разгуливаем… Или разгуливаем?

Итак, перед Вами первая статья из цикла — о дата-профессиях.

Аналитик данных (Data Analyst)

Гарри Поттер и большие данные

С точки зрения инженеров и администраторов баз данных, постоянно «наводят суету», пренебрегают правилами и являются источником головной боли и бессонных ночей. Зато всегда на виду.

Хороший аналитик знает:

  • SQL для получения данных из базы
  • Python или R для обработки данных
  • Математику и статистику,
  • Бизнес-процессы для правильной интерпретации полученных результатов
  • Средства визуализации (Tableau, Power BI) , чтобы наглядно продемонстрировать результаты своей работы.

Дата-сайентист (Data Scientist)

Гарри Поттер и большие данные

В русскоязычных публикациях их еще иногда именуют «исследователями данных», иногда — «специалистами по науке о данных». Оба термина мне не нравятся. Первый ограничивает суть, исследование данных — только часть их функционала, кроме того, аналитики данных тоже занимаются исследованиями. Второй для меня слишком «тяжеловесен». Поэтому в дальнейшем я буду упоминать только разговорное, оно же общепринятое, название — дата-сайентист.

Основная задача, как и у аналитиков, — помощь бизнесу в принятии решений на основе данных. Только, если фокус аналитиков — прошлое и настоящее, то помыслы дата-сайентистов устремлены в будущее. Используя «мутные», только им понятные алгоритмы, они строят модели для прогнозов и рекомендаций.

Здесь больше математики и программирования и меньше визуализации.

Дата-стюард (Data Steward)

Гарри Поттер и большие данные

Дата-стюарды — незаметные и недооцененные герои дата-мира, на мой взгляд. Их основная задача — помочь всем желающим в поиске необходимых качественных данных. Для этого они определяют правила по сбору, хранению, использованию, документированию и качеству данных. И следят за выполнением этих правил.

Порой кажется, что они чересчур назойливы и требовательны, но когда нужно за короткий срок найти данные для отчета среди множества таблиц и различных источников, понимаешь важность этих специалистов.

Приготовить идеальное «дата-зелье», без их помощи крайне сложно. Также могут обучить защитному заклинанию от «изобретения велосипедов», а именно- разработки отчетов, наборов данных, различных показателей, которые на самом деле в компании уже давно существуют.

Инженер данных (Data Engineer)

Гарри Поттер и большие данные

История профессии «инженер данных» своими корнями упирается в тот самый момент, когда пользователи, которые строят на базе данных отчеты, начали мешать пользователям, которые эту базу изменяют. Количество изменений и их частота росли, а значит, росли и объемы данных для аналитических отчетов. Было принято решение разделиться на 2 подхода:

OLTP (англ. Online Transaction Processing) — системы, предназначенные для быстрой обработки транзакций, то есть вставки, изменения, удаления записей.

OLAP (англ. online analytical processing) — системы, предназначенные для аналитических запросов.

Таким образом, появилась необходимость в специалистах, которые будут перемещать данные между OLTP и OLAP-системами. Желательно точно в срок, с необходимой полнотой и качеством, в структуры, заранее спроектированные архитектором, в удобном для использования виде дата-аналитиками и дата-сайентистами.

Инженеры данных являются своеобразным «клеем», соединяющим между собой различные дата-профессии.

Основной навыки инженеров данных — язык SQL, различные ETL-инструменты и оркестраторы.

Архитектор данных (Data Arhitect)

Гарри Поттер и большие данные

Архитектор данных — это тот человек, который «видит всю картинку целиком», проектирует ваш дата-мир и в специальных программах рисует основные «сюжетные» блоки и линии. Важные навыки для этой профессии — умение слушать, задавать правильные вопросы и структурировать полученную информацию. Кроме того нужно разобраться с подходами, шаблонами, методологиями и технологиями, применяемыми для обработки данных. Так что «с нуля» стать архитектором вряд ли получится, хорошим подспорьем будет опыт в другой дата-профессии, например, в в роли инженера данных.

Вот как-то так выглядят дата-профессии в мире магии, ведь данные — это тоже, своего рода, волшебство. Пишите в комментариях, что нового вынесли для себя из статьи, какую из профессий разобрать подробнее?

P. S

На одном из предыдущих мест работы мы с коллегами запускали внутренний курс для инженеров данных. Нам понадобилось название для канала в Slack, в котором ученики могли бы общаться с преподавателями. К неймингу подошли серьезно, сразу должно было быть понятно, что канал посвящен инженерии данных (DE) и в нем будут преподаватели (mentors) . На картинке видно, что у нас получилось.

Гарри Поттер и большие данные
1616
реклама
разместить
5 комментариев

Первая статья с подробным разъяснением, понятная даже чайнику) Спасибо!

Спасибо за приятный отзыв! Надеюсь, что получится продолжить в том же духе)

Можете рассказать про ETL и ETL-инструменты.
Вы очень понятно излагаете. ))

ETL и BPMN как связаны?
Как из схем созданных в нотации BPMN получают ETL?
Как ETL передает информацию об описанных процессах «исполняющим системам»?

Никак не связаны. ETL - это про загрузку данных из источника в аналитическую систему. Extract - извлечение, Transform - преобразование, Load - загрузка. Соответственно, ETL - инструменты умеют подключаться к различным источникам, базам данных, например, вытаскивать оттуда данные, что-то с ними сделать и положить, например, в другую базу данных.