Новая элита: почему так раздражают дата-сайентисты

Руководитель департамента Data Science холдинга ID Finance Андрей Атрашкевич за два года проинтервьюировал более сотни специалистов и рассказал, что с ними не так.

Когда-то элитой финансовой сферы в России были программисты. Их воспринимали как незаменимых, уникальных людей — примерно так они изображены в книге Стругацких «Понедельник начинается в субботу».

На какие только ухищрения не идут персонажи книги, чтобы доставить главного героя — программиста — в НИИЧАВО. Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелёгким, рутинным и, в общем-то, скучным трудом. Теперь элитой стали data scientists (DS или дата-сайентисты). Они — белая кость и голубая кровь финтеха, их зарплата — выше, чем общая по рынку, но ещё выше их самомнение.

Мы постоянно набираем риск-аналитиков, продуктологов, DS и так далее: финтех-холдинг ID Finance работает с колоссальными объёмами данных из семи стран (включая Бразилию, Мексику, Испанию и прочее).

Для сферы финтеха, где все бизнес-процессы завязаны на обработке данных, поиск нужных людей превращается в настоящую головную боль. Чтобы найти последнего DS я провёл 14 собеседований. За два года я проинтервьюировал более сотни людей. Теперь я могу объяснить, почему они всех так раздражают.

Снобизм

Karma police, arrest this man: he talks in math, he buzzes like a fridge. Я умею писать такие алгоритмы, что не каждый и поймёт. Если мой алгоритм не приняли — значит, они дураки. Очень часто именно так рассуждают многие DS. Хуже, когда на это накладывается снобизм академических институций.

Кто не оканчивал кафедру интеллектуального анализа данных Физтеха (или Школу анализа данных «Яндекса») — тот ничтожество и гордо называться «data scientist» не может. Это ещё один частый аргумент DS. По большому счёту, регалии ничего не стоят. Есть только два варианта: либо твой алгоритм приносит пользу, либо нет. И не важно, какое у тебя образование и как правильно называется твоя профессия.

Низкая квалификация

Профессия DS находится на этапе становления, попасть в неё можно буквально с улицы (например, простым инженером просто так не станешь — необходимо системное образование). Сложно даже представить, насколько легко перейти в эту профессию. Есть много инструментов для самообразования: Coursera, edX, Kaggle и прочее.

Большинство отличных data scientists — это самоучки, я это говорю с колоссальным уважением. Но эта доступность инструментов создаёт иллюзию лёгкого обучения. В какой-то момент вокруг DS возник хайп. В итоге на рынке труда с одной стороны ощущается дефицит кадров (потребность в специалистах за последние годы возросла в десятки раз), с другой — он переполнен людьми, которые ничего не умеют (хотя убеждены в обратном).

Мне иногда на собеседованиях DS пытаются рассказать все слова, которые выучили. На вопрос, как они представляют то, чем им предстоит заниматься, отвечают: «кластеризация», «классификация с помощью нейронных сетей», «классификация нечёткими логиками», «reinforcement learning» и так далее.

При этом для большинства из них это не более чем почерпнутый из online-курсов (чаще всего не пройденных до конца) «модный» сленг, позволяющий опознать «своих». Большинство при этом в лучшем случае способно вызвать готовую функцию из Python-библиотеки, понимающих механику работы алгоритмов — единицы.

Завышенные ожидания

Люди обучаются DS, потому что думают, что это сплошное творчество, что они будут «парить в алгоритмах», ну или на крайний случай заниматься сложными, но интересными проектами.

На деле — это тяжёлый рутинный труд, требующий концентрации сосредоточения. 90% работы любого DS — это обработка данных, поиск выбросов, проверка на их согласованность — занятия, далёкие от творчества в его романтическом понимании. В этом деле нужно уметь «щупать данные». Этого можно достичь только опытом и больше ничем.

Аутизм

Я наблюдаю у многих соискателей лёгкую форму высокофункционального аутизма. Им неинтересно общаться с другими людьми, а интересны лишь алгоритмы. По моим ощущениям, доля таких социально неадаптированных людей в DS примерно 60—70 %. Это профессиональное заболевание, как силикоз у шахтёров.

Но data scientist должен уметь общаться и работать в команде. В процессе выполнения задач сотрудникам нужно разговаривать с отделом финансов, продаж, рисков и прочее. В ID Finance DS неизбежно вплетены в производственную цепочку и более-менее разбираются в работе отделов маркетинга и финансов.

Конечно, это работает не везде: некоторые компании считают неумение общаться плюсом. Всех DS собирают в одном место, ставят кофемашину, приносят печеньки и разрешают полдня играть в Xbox, при этом получают хороший результат. Но таких компаний очень мало.

Для многих молодых людей профессия DS — этакая форма социального эскапизма. Они думают: «Я не хочу работать в офисе и стать к 30 годам героем песен Шнура, поэтому я пойду в data science. Это стильно, модно, молодёжно».

DS — это хипстеры от ИТ

DS всерьёз иногда думают, что лучше применять тот алгоритм, который моден в этом сезоне. Так, например, было с XGboost. Когда я спросил на очередном собеседовании, почему именно XGboost и как он работает. То услышал такой ответ: «Я точно не знаю, но вообще все пользователи на Kaggle используют этот алгоритм, получают отличные метрики, выходят в топ, гребут медали и призы».

При этом принцип работы этого алгоритма можно изобразить на обычном листке бумаги, в Coursera это делают на доске. Критерием выбора инструмента должна быть его практическая применимость для конкретной задачи.

Если у меня задача сделать базу данных, я буду использовать какой-то из диалектов SQL. Если нужно смоделировать приём сигнала на радар, то воспользуюсь языком С++. Я всегда буду выбирать инструмент под задачу. Я не буду делать сайт на C++ или писать операционную систему на PHP, хотя так тоже можно. Для чат-бота необязательно использовать динамические нейронные сети. Оставьте вообще в покое нейронные сети.

Непонимание бизнеса

Алгоритмы нужны не сами по себе, а в контексте бизнес-процессов. В конце концов, аналитик работает для того, чтобы компания заработала больше денег. И DS должен понимать, что это за рынок, откуда идёт доход и как в этом помогают модели, которые он создаёт.

Например, может ли быть так, что в группе людей, которым за 60 лет, больше владельцев iPhone, чем в группе людей, которым 20-30 лет? В России — однозначно нет. В Бразилии — почему бы и нет. Мы работаем в семи странах и неплохо, чтобы человек мог разобраться, чем уклады и традиции одной страны отличаются от уклада и традиций другой.

Неумение рассказать о том, что ты делаешь

Иногда DS не могут описать, как тестируется простая статистическая гипотеза. А это означает полнейшую профнепригодность. Он должен на человеческом языке рассказать, как алгоритм работает на том или ином шаге. Притом так, чтобы это стало понятно кому угодно. Самые сложные вещи должны объясняться простыми словами.

Если во время работы подойдёт, например, самый главный босс, и DS не сможет ему разъяснить что-то, его просто уволят. Логика руководства проста — если человек не понимает, как это работает, он не поймёт, что не сработает.

У них дурацкое название

Непонятно, как их лучше звать по-русски. Консенсуса по этому вопросу нет. Обычно их называют дата-сайентистами, сами они себя иногда зовут дата-сатанистами, вероятно, полагая, что это остроумно. Слово «аналитик» они старательно избегают, наверное, оно недостаточно «секси». Раньше шутили, что заводы в стране стоят, зато вокруг одни фотографы. Теперь будут шутить, что заводы стоят, потому что везде одни data scientists.

0
82 комментария
Написать комментарий...
Vitaliy Radchenko

Товарищ автор, приглашаем вас в наше большое и дружное комьюнити http://ods.ai, где общаются больше 10к русскоговорящих датасаентистов. Там можно детальнее обсудить профессию, p-value, xgboost и даже мемы про ml. Мы уже начали потихоньку накидывать аргументы "за" и "против", подтягивайтесь :)

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Виталий, благодарю Вас за приглашение! По возможности — неприменно присоединюсь, хотя я, наверное, уже слишком стар и не моден для такого сообщенства:)

Ответить
Развернуть ветку
3 комментария
Devoted

Как говорит один мой знакомый: «Если человек утверждает, что он дата-сайентист, то скорее всего он пиздабол»

Ответить
Развернуть ветку
Igor Erokhin

А если и правда датасайентист? ЧТО ТОГДА??

Ответить
Развернуть ветку
4 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Critical Damage

вы тоже дата сайнтист?)

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Андрей Страдов

Не понял, почему у многих комментаторов так бомбит на эту статью. Упомянуты вполне реальные проблемы, связанные с профессией (например, мало толковых кандидатов). Да и сам автор, по впечатлению, имеет большой опыт подбора / взаимодействия с DS'ами и отлично разбирается в теме. Так что его мнение по теме, имхо, довольно ценно в связи с упомянутыми выше обстоятельствами.

Ответить
Развернуть ветку
2 комментария
Олег Акимов

Андрей (автор), добрый день. Узнав, что вы из Сыктывкара, испытал гордость, что земляк возглавляет Data Science подразделение в солидной компании. Вы ведь помимо работы в индустрии занимались или занимаетесь наукой, судя по тому, что вы кандидат наук. Однако нигде не могу найти вашу кандидатскую работу. Не могли бы дать ссылку на вашу кандидатскую? Думаю, что она будет мне полезна, т.к. занимаюсь схожей тематикой.

Ответить
Развернуть ветку
Serge Arsentiev

Олег, по диссеру удалось найти вот это, там короче формулы какие-то :)
http://wiki.amplab.ru/cgi-bin/awki.cgi/?action=edit&revision=1.376&page=%D0%90%D1%82%D1%80%D0%B0%D1%88%D0%BA%D0%B5%D0%B2%D0%B8%D1%87%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9
Спящий дракон wolong из CыкГУ :(

Ответить
Развернуть ветку
Serge Arsentiev

Диссер не ищется, от слова напрочь. Автор пишет что аспирант - еще в 2015 году, т.е. диссер должен бы уже всплыть - хоть в виде автореферата. Фамилию автор вроде бы не менял. Мистика.

Ответить
Развернуть ветку
Andr Ew

дата-сайентологи

Ответить
Развернуть ветку
Денис Актюрк

Так и прочитал изначально 😅

Ответить
Развернуть ветку
Kirill Malev

дата-сатанисты

Ответить
Развернуть ветку
Ilya Permyakov

А мне казалось что ДСы должны иметь базовое инженерное образование в сфере ИТ или математическое. +Курс собственно самого напрвления ДС. При такой подготовке странно было бы не иметь глубокого понимания алгоритмов обработки данных.

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Илья, вы совершенно правы, DS'у хорошо бы иметь базовое образование в области точных наук, которое затем углубить курсами по Data Science.

Но, во-первых, то, что тебе дают техническое образование не значит, что ты его действительно получишь. Довольно часто на собеседованиях я встречаю людей (с дипломами весьма почтенных ВУЗов), чей ответ на вопрос «что такое p-value», вызывал желание дать им учебником Ширяева (или хотя бы «Конспектом» Письменного) по голове, а затем заставить их читать эти книги quantum satis до полного просветления.

Во-вторых, обычная ситуация с пониманием «механики» алгоритмов DM / ML у очень многих соискателей должности Data Scientist'а прекрасно описывается этим замечательным мемом:

Ответить
Развернуть ветку
5 комментариев
Alexey Ivanov

наличие базового инженерного образования+курс ДС не дает гарантировано глубокого понимания алгоритмов обработки данных. об этом автор говорит в том числе.

Ответить
Развернуть ветку
Владимир Волохонский

Есть нюансы. Для того, чтобы быть DS очень высокого уровня, таким, который способен разрабатывать алгоритмы и внедрять их в программный код, действительно нужно такое образование, причём в нашей стране, думаю, можно по пальцам пересчитать кафедры, которые могут его дать.

А вот если речь идёт о прикладном специалисте, который решает задачи с использованием готовых алгоритмов, то от него требуется в первую очередь хорошее понимание основ теории вероятностей, статистики и общее представление о том, как работают алгоритмы ML. И, как сказано в статье, опыт. А вот такой комплект в свою очередь, очень даже часто встречается среди людей, обучавшихся социальным наукам - экономике, психологии, социологии. Потому что объём курсов по теорверу и статистике там раза в два больше, чем получает средний студент-математик. Ну и многие задачи требуют domain knowledge в этих областях.

Ответить
Развернуть ветку
Егор Литвиненко
Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелегким, рутинным и, в общем-то, скучным трудом.

Видимо, у вас в ID Finance работают именно такие программисты? Будучи программистом не с мог пройти мимо :) Сделал вывод, что в ID Finance не посоветовал бы идти работать.
Вообще, говоря, в любой сфере есть хорошие специалисты и плохие. Вам почему-то только плохие попадаются, судя по статье.

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Егор, добрый день!

В ID Finance работают прекрасные программисты, которые вызывают у меня чувство колоссального уважения, а порой и неподдельного восхищения (в т. ч. и в силу отличного от нуля навыка программирования в моём профессиональном анамнезе).

Думаю, Вы согласитесь, что работа программиста — это тяжёлый и изматывающий труд, требующий серьёзной концентрации и незаурядной дисциплины ума.

Попадаются мне очень разные кандидаты (программистов, напомню, я не отбираю), что прекрасно иллюстрирует один из частных случаев принципа Партео, более известного в этих Ваших интернетах как правило 95%:)

Ответить
Развернуть ветку
6 комментариев
Serge Arsentiev
Сделал вывод, что в ID Finance не посоветовал бы идти работать.

Я сделал вывод, что там только для своих, а чужих радостно отшивают, и есть даже специальный человек, который "валит" на собеседовениях всех :)

Ответить
Развернуть ветку
5 комментариев
Ильяс Гарифуллин

Интересно в каком месте предложения

Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелегким, рутинным и, в общем-то, скучным трудом.

Вы прочитали в ID Finance работают плохие программисты

Ответить
Развернуть ветку
3 комментария
Dmitry

Не, у нас хорошие программисты, замечательные! Просто Андрею нужно было повысить градус драматургии в тексте. Немножк.

Ответить
Развернуть ветку
2 комментария
Никита

Почему то, после прочтения статьи, вызывает раздражение Руководитель направления департамента Data Science холдинга ID Finance, а не дата-саентисты.

Ответить
Развернуть ветку
Serge Arsentiev

Данила, да не то слово, не раздражение, а недоумение. Человек, который нанимает людей, тестирует их - открыто и подробно пишет о своей ненависти к ним. Мне даже интересно, как организован предварительный отбор кандидатов - и что там по зарплате предлагают, чтобы требовать перемножать 10-ти значные числа в уме (я все ждал когда автор статьи посетует на неспособность соискателей делать это)

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Данила, добрый день!

Признателен Вам за помощь: исправил наименование моей должности.

Ответить
Развернуть ветку
Insaf Ashrapov

Увеличивайте вилку и люди к вам потянутся

Ответить
Развернуть ветку
Alexander Fedorov

Данные щупаешь, да?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Саша Аксентьева

Привет, спасибо за статью. Было бы круто найти гифки и картинки пошире или убрать их совсем, будет лучше по оформлению.

Ответить
Развернуть ветку
Serge Arsentiev

Поиск негров на плантацию - и правда тяжелое и неблагодарное дело, что и пытался выразить автор статьи тематическими картинками. Первый, пожалуй, на vc материал (после откровений Грефа), о том что программисты - серые мышки, а дата аналитики - тоже дураки какие-то. Которые отчего-то должны ждать, когда к ним подойдет генеральный и спросит как всё работает, хотя при нормальной организации работы это какая-то ерунда.

Ответить
Развернуть ветку
Saucedo Puetz

Почему то как только кто-то из начальников начинает рассуждать про рынок труда-можно дальше не читать. И кандидаты у него плохие, и ленивые, и денег хотят и всех круче себя считают... Это профдеформация?

Ответить
Развернуть ветку
Serge Arsentiev

Там еще великий (величайший) ученый физмат. Диссер правда не ищется, видимо засекречен :)
Обычно все эти матмехи/мехматы в Google тусуются, и там друг друга поражают своим знанием теорем и функций. А тут что-то не вышло, и похоже, первая серьезная руководящая должность - на которой главное не нанять случайно кого-то умнее себя. Поэтому и задача _не_ нанять - выполняется успешно.
Хотя вброс знатный - вместо того чтобы просто оплатить вакансию (вакансии).

Ответить
Развернуть ветку
Олег Акимов

Не называют аналитиками, т.к. если вбить на ХХ.ру "Аналитик", то просто не найдешь вакансии, для которых необходимо применение машинное обучение, глубокое обучение, среди аналитиков которые занимаются только выгрузками из SQL-баз, аналитиков продаж и т.п. Просто можно попробовать и посмотреть, что выдает поиск. Писать в резюме "Аналитик" - это то же самое, как если вместо "Java-разработчик" писать "Программист" или "IT-шник".

Ответить
Развернуть ветку
Kirill Sokol

Поломаю твой Inception

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Котики столь же прекрасны как и сложные мемы про машинное обучение:)

Наверное, мне следует чувствовать гордость, что меня сравнили с ИНС:)

Ответить
Развернуть ветку
Serge Arsentiev

Я вот не понял этого кипеша ... посмотрел https://idfinance.com/ - там куча наград про Best microloan provider, Best micro-finance, online micro finance.
Так что, этот мега-пафос - он про то, как ловчее взять 1200% в год?
Меня еще удивило в оригинальной статье отсутствие хоть одного реального кейса про решаемые задачи - только обсуждение неимоверно высоких требований, и никакой конкретики .... Стоило ли так форсить-то :(
 
Ждем интервью от продавцов наркотиков и содержателей публичных домов, про трудности найма и контроля персонала в их сфере. Потому что больше микрофинансовых ростовщиков сравнивать конечно не с кем ...

Вакансии компании на HH - з/п не указана - как стыдно-то ...
https://spb.hh.ru/employer/1191643#vacancy-list
"ID Finance – международная fin-tech компания. По мнению Banki.ru наша компания была признана лучшей Финансовой компанией 2017 года! Команда была основана в 2012 году, но уже сейчас в нашем Холдинге более 500 человек и мы продолжаем расти! Наиболее известными активами ID Finance являются проекты MoneyMan и AmmoPay. Компания оперирует в России, в Казахстане и Грузии с 2014 года , с 2015 года в Испании и Польше, с 2016 года в Бразилии, с 2017 года в Мексике. R&D центр ID Finance расположен в Беларуси."

Ответить
Развернуть ветку
Serge Arsentiev

А вот чем тов. Атрашкевич занимается на работе. Точнее, пишет об этом.
"Больше всего нас интересуют деньги» – как мы предсказываем, вернет ли заемщик долг"
https://rb.ru/opinion/bolshe-vsego-nas-interesuyut-dengi/
..
об опыте внедрения скоринговой модели в Испании, с помощью которой можно отсекать неблагонадежных заемщиков .. индекс Джини ...
Мы анализируем маркеры, позволяющие оценить достоверность информации, которую заемщик указал о себе: смотрим с какого устройства он заполнил анкету кредита, какое разрешение экрана на этом устройстве, какая операционная система установлена на компьютере и какой мобильный оператор поставляет услуги связи.
Если заемщику за 60 лет, а он пользуется последним iPhone, это может насторожить, равно как и использование мобильного номера, зарегистрированного за несколько дней до подачи заявки на кредит. Конечно, мы берем и данные неполной кредитной истории.
...
Модель, разработанная для Испании, использует минимум информации, однако благодаря правильной обработке всех данных и использованию достаточно сложных математических вычислений выдает точный прогноз.
...
После внедрения первой модели в Испании мы разработали еще четыре – для других продуктов. Все модели работают несколько месяцев, удерживая индекс Джини на уровне 0,7. Когда далекие от аналитики люди спрашивают, с чем связана наша работа, я отвечаю, что мы предсказываем будущее.
..."

Ответить
Развернуть ветку
Pavel Pokrovsky
Так что, этот мега-пафос - он про то, как ловчее взять 1200% в год?

Это что-то плохое?

Ответить
Развернуть ветку
4 комментария

Комментарий удален модератором

Развернуть ветку
Jekaterina Belajeva

Здесь список курсов, можно что-то для себя подобрать. https://vc.ru/33816-25-kursov-dlya-nachinayushchih-data-analitikov

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Добрый вечер!

Благодарю за столь высокую оценку моей статьи и, что более важно, за прекрасный вопрос.

К сожалению, полный и полезный ответ не может быть дан в формате комментария.

Очень скоро наша компания, ID Finance, откроет блог на другом популярном ресурсе (не знаю, этично ли давать название здесь). Вполне возможно, что и я, и ребята из моей команды попробуем дать ответ на важный и популярный вопрос «как стать Data Sceintist'ом».

Высшее техническое образование, конечно, будет полезно (если было получено именно образование, а не только диплом). При этом его наличие не является stop-фактором или условием sine qua non. Два моих знакомых, прекрасных Data Scientist'а имеют образование лингвиста и биолога. Конечно, им было очень сложно по сути заново учить «базу». Но их усилия возымели успех, и они не DS'ы не хуже (а во многом и лучше) тех, кто получал образование в области математики, физики, компьютерных наук или инженерного дела.

Если речь идёт о том, что стремящийся стать DS'ом не помнит, что такое логарифм, то, наверное, стоит начать именно с повторения школьной математики. При этом, полезно будет понять не только (и не столько), ЧТО такое логарифм, а ЗАЧЕМ он был нужен и ПОЧЕМУ месье Лаплас говорил, что «логарифмы, сокращая время вычислений, удлинили жизнь астрономов». Аналогичные вопросы задавать себе следует и при переучивании всех разделов математики. Например, подумайте, почему нормальное распределение именно такое. Не с неба же оно свалилось, правда?:)

Если у Вас остались вопросы и Ваш интерес не чисто теоретический, то обращайтесь лично (почта, социальные сети), я постараюсь ответить (скорого ответа не обещаю).

Ответить
Развернуть ветку
Артем Груздев

Про аутизм и непонимание бизнеса на 100% солидарен с автором. Как если бы я сам это писал.

Ответить
Развернуть ветку
Yury Kuzmenkov

Сколько модных слов и как много людей в теме!!! А тупую эксель табличку до сих пор хрен получишь от “профильных” подразделений. Одни DS вокруг латте усасывают

Ответить
Развернуть ветку
Николай Морозкин

вот да!

Ответить
Развернуть ветку
Andrey Kataev

Лог-регрессия уже никого не вставляет, всем подавай случайные леса :)
На сколько более точными стали модели у ID Finance, с учетом новомодного DS?

Ответить
Развернуть ветку
Андрей Атрашкевич
Автор

Андрей, здравствуйте!

logit — это отличный алгоритм для скоринга, особенно в парадигме rapid model development. Я ни в коей мере не умаляю его значимость.

«Новомодный» DS, как Вы, несомненно знаете, может использоваться не только для предиктивных моделей, но и, например, для chat-bot'ов, анализа на графах и распознования паттернов поведения при печати текстов, где logit не применим от слова совсем.

В целом использование DS приносит явную пользу компании. В финтехе совершенно невозможно держать подобное подразделение просто «для имиджа» или из-за «моды». Если бы труд дата сайентистов был бесполезен или маловыгоден, этих людей в нашей компании, пристально следящей за эффективностью всех бизнес-процессов, просто бы не было, не так ли?

Ответить
Развернуть ветку
2 комментария

Комментарий удален модератором

Развернуть ветку
Fun Rizer

Так интересно читать эту статью спустя 5 лет.

Ответить
Развернуть ветку
79 комментариев
Раскрывать всегда