Как понять, какой специалист Big Data вам нужен?

Как понять, какой специалист Big Data  вам нужен?

Big Data – что это? В сети сегодня можно найти множество статей, которые дают определение этому понятию. Изначально введение термина «большие данные» присваивают Клиффорду Линчу, редактору журнала Nature, который в 2008 году подготовил выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?».

Очень часто возникает вопрос: Big Data — это сколько? К большим данным Линч отнес любые массивы неоднородных данных более 150 Гб в сутки, однако на сегодняшний день единого критерия, какой объем данных считать большим, не существует. Но можно сказать, что «большие данные» – это тогда, когда информации столько, что ее невозможно обрабатывать традиционными способами. Такие массивы данных обрабатывают при помощи специальных автоматизированных инструментов, чтобы использовать для статистики, анализа, прогнозов и принятия решений. Это уже повод привлекать специалистов по Big Data. И тут важно не ошибиться с выбором, каких именно специалистов привлекать.

Принято считать, что в Big Data работают три типа специалистов:

  • Аналитик данных (Data Analyst);
  • Инженер данных (Data Engineer);
  • Исследователь данных (Data Scientist).

Но разбираться, чем именно занимается каждый из этих специалистов, удобнее в обратном порядке.

Data Scientist

В самом слове «scientist» содержится ответ. Это человек, деятельность которого связана с наукой. Data Scientist занимается именно научно-исследовательской работой на стыке математики и программирования. В реальной жизни эти люди разрабатывают алгоритмы, методики, создают библиотеки. Конечно иногда они занимаются и решением конкретных задач бизнеса. Но это не исключает, что в рамках решения конкретной бизнес-задачи будут разработаны новые алгоритмы, новые подходы. Следует обратить внимание, что «по складу мышления» эти люди являются именно «исследователями». Они глубоко понимают различные области математики – математическую статистику, теории вероятности и матричных вычислений, дифференциальное и тензорное исчисления. Но им, как правило, не интересно заниматься однотипными задачами с «шаблонными» способами решения.

Data Engineer

Описание того, чем занимается Инженер данных, невозможно без упоминания «Хранилищ данных» (Data Warehouse или DWH) и «Озер данных» (Data Lake). Несмотря на то, что оба термина подразумевают загрузку и хранение неограниченного количества данных (это в теории, на практике, конечно, любое хранилище всегда ограничено по объему), различия между Хранилищем и Озером данных очень существенное. И если DWH предназначено для хранения структурированных данных, то Data Lake организуется таким образом, что позволяет хранить любые данные – как структурированные данные (таблицы баз данных, XML, CSV и др.), так и неструктурированные («сырые») данные – такие как видео- или аудиофайлы. Обработка данных производится с использованием процессов ETL и ELT. Что это такое?

ETL (Extract – Transform – Load) используется при работе с хранилищами данных. Для хранения данных в DWH исходные данные сначала извлекаются (Extract) из источников данных; потом преобразовываются (Transform) в формат, заданный при разработке формата хранилища; и уже после преобразования (приведения к формату), загружаются (Load) в само хранилище.

Подход ELT применяется при работе с Data Lake. Это более гибкий подход, так как позволяет собирать (Extract) и загружать (Load) в озеро данные в том виде, в каком они изначально собираются. А преобразование (Transform) данных в вид, удобный для анализа, происходит на более поздних этапах.

Data Engineer как раз и занимается вопросами разработки DWH или Data Lake, а также процессами ETL и ELT. Т.е. инженер данных занимается обработкой, преобразованием данных, но не их анализом.

Data Analyst

Это специалист, который решает прикладные задачи, непосредственно стоящие пред бизнесом. Он работает с данными, подготовленными Data Engineer с помощью алгоритмов и библиотек, разработанных Data Scientist.

Разумеется, в реальной жизни редко бывает столь чёткое разделение специализаций. Зачастую аналитик данных занимается и разработкой модели данных для хранилища. Без глубоких знаний аналитиком математического анализа, применение даже известных алгоритмов и библиотек практически невозможно. Также никто не запрещает привлекать исследователя данных к решению прикладных бизнес-задач.

Однако перед началом любого проекта крайне важно проанализировать его задачи и требуемые результаты, чтобы подобрать в команду максимально подходящих людей. Именно поэтому мы в Бизнес-Азимут внедрили многоступенчатый принцип отбора специалистов для формирования проектных команд. Мы детально изучаем все нюансы проекта, идентифицируем критически важные компетенции, разрабатываем профиль для каждой проектной роли и уже после этого начинаем формирование команды, учитывая не только профессиональные навыки, но и личностные качества специалиста.

11
Начать дискуссию