{"id":14274,"url":"\/distributions\/14274\/click?bit=1&hash=fadd1ae2f2e07e0dfe00a9cff0f1f56eecf48fb8ab0df0b0bfa4004b70b3f9e6","title":"\u0427\u0435\u043c \u043c\u0443\u0440\u0430\u0432\u044c\u0438\u043d\u044b\u0435 \u0434\u043e\u0440\u043e\u0436\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0441\u0442\u0430\u043c?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"6fbf3884-3bcf-55d2-978b-295966d75ee2"}

Скорее всего, вам не нужен data scientist

В сфере работы с данными есть профессия, которая сегодня у всех на слуху – data scientist. Ее признавали самой сексуальной профессией XXI века, но действительно ли вам нужен этот специалист или возможно стоит нанять кого-то другого?

Данные — это новая нефть?

Кажется, что данные — это какая-то новая технология, которая захватывает мир в настоящий момент. Но это не совсем так, потому что человечество давно занимается тем, что накапливает статистику по интересующим его вопросам. В древности это касалось подсчета населения, скота, земельных угодий, имущества. После этого стали собирать данные о состоянии промышленности и сельского хозяйства.

То есть мы видим, что люди давно поняли: данные дают ценную информацию, а ценная информация ведет к более правильным управленческим решениям. Значит, собирать данные - это правильно. Поэтому можно говорить, что данные, как технология, распространяются по миру с древних времен. Но данные – это не нефть, доступ к которой есть только у ограниченного числа компаний, информация может собирать потенциально каждый.

Data scientist и data engineer – неужели есть разница?

На самом деле данные – это вообще никакая не технология. Данные – это просто некий слепок реальности в оцифрованном виде, а технологии в данном контексте – это то, что позволяет их собирать, перемещать и обрабатывать.

То, что можно считать все-таки новым – это алгоритмы, при помощи которых оказалось возможно обрабатывать данные и извлекать что-то ценное. Раньше без них мы оставались просто на уровне дескриптивного анализа: посчитать урожай, численность населения или текучку кадров на предприятии. Теперь при помощи алгоритмов машинного обучения оказалось возможным эти данные перерабатывать и делать из них более ценные выводы. В частности, мы смогли перейти от описательного анализа к предиктивному, что позволяет нам делать прогнозы и заполнять пробелы в наших знаниях относительно будущего, например.

Data scientist — это тот человек, который может взять ваши данные и переработать их во что-то стоящее: кредитный скоринг, таргетированная реклама, рекомендательная система т.д. Но достаточно ли этого?

Большинство алгоритмов машинного обучения (в том числе и нейросетевых) появились еще в XX веке, но бум, связанный с данными, мы наблюдаем сейчас. Следовательно, не это было сдерживающим фактором распространения подхода работы с данными, а что-то другое.

И это логично. Да, мы придумали, что с данными делать, но самих данных у нас по-прежнему не так уж и много. У нас есть специалисты, которые готовы обработать то, что уже получили, но у нас нет тех, кто эту информацию добывает.

Наконец, лет 5-10 назад появились технологии, которые значительно удешевили именно процесс сбора и предобработки данных. Мало того, многие из этих технологий были выложены в свободный доступ как open-source проекты. И именно этот фактор повлиял на скорость, с которой мир начал внедрять у себя работу с данными и, соответственно, спровоцировал огромный рост спроса на людей, способных использовать эти технологии для обработки сырых данных. Таких специалистов называют data engineer.

Таким образом, на современном рынке компании столкнулись со своеобразной эволюцией: организация начинает работать с данными, понимает, что для этого нужен data scientist, а затем приходит осознание, что для эффективной работы аналитика нужен data engineer. То есть на определенном этапе своего развития каждая компания рано или поздно задаст себе вопрос: нужно ли заниматься обработкой данных, когда мы еще их не начали добывать и когда мы еще не разработали технологии, позволяющие это делать быстро?

Но кто такой data engineer? Как именно отвечают на этот вопрос компании по всему миру, наглядно отображает тот факт, что в 2017 году пользователи Google искали информацию о data engineer-ах на 80% чаще, чем в 2016 году и в 2,5 раз чаще по сравнению с 2015 годом.

2014 - 2017 гг.

Если говорить о ситуации в России, то на сегодняшний день на таких сервисах, как HeadHunter и LinkedIn, открытыми остаются около 300 вакансий на позицию data scientist-а, и меньше, около 250, на позицию data engineer-а, то есть сейчас инженеры данных практически не уступают в популярности “самой сексуальной профессии XXI века”. Так кто же такой data engineer?

Data engineer — это тот человек, который может протянуть пайплайны, состоящие из разных инструментов, так, чтобы данные текли туда, куда надо, с нужным качеством и в нужном формате. Также в его обязанности входит превращение моделей аналитиков в готовый продукт, их интеграция в бизнес-процессы компании, ведь сама по себе модель data scientist-а не принесет дополнительную прибыль компании.

Реальность такова, что без data engineer-а сегодня не обойтись ни одной компании, которая работает с данными. Да, кто-то может возразить, что в их компании есть аналитики-универсалы, которые могут и прогноз составить, и качественную инфраструктуру данных с нуля воздвигнуть, однако построение пайплайнов обработки данных — это отдельное искусство, не менее сложное, чем аналитика, требующее усилий. Усилий, которые себя окупят вдвойне. Data scientist-ы теперь будут получать “чистые” данные в должном объеме вовремя и смогут заниматься своим делом, не тратя силы на обработку первоначальной информации.

Автор: Артём Пичугин, Руководитель программ по большим данным Newprolab

0
Комментарии

Комментарий удален модератором

Развернуть ветку
-3 комментариев
Раскрывать всегда