Новая элита: почему так раздражают дата-сайентисты

Руководитель департамента Data Science холдинга ID Finance Андрей Атрашкевич за два года проинтервьюировал более сотни специалистов и рассказал, что с ними не так.

Когда-то элитой финансовой сферы в России были программисты. Их воспринимали как незаменимых, уникальных людей — примерно так они изображены в книге Стругацких «Понедельник начинается в субботу».

На какие только ухищрения не идут персонажи книги, чтобы доставить главного героя — программиста — в НИИЧАВО. Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелёгким, рутинным и, в общем-то, скучным трудом. Теперь элитой стали data scientists (DS или дата-сайентисты). Они — белая кость и голубая кровь финтеха, их зарплата — выше, чем общая по рынку, но ещё выше их самомнение.

Новая элита: почему так раздражают дата-сайентисты

Мы постоянно набираем риск-аналитиков, продуктологов, DS и так далее: финтех-холдинг ID Finance работает с колоссальными объёмами данных из семи стран (включая Бразилию, Мексику, Испанию и прочее).

Для сферы финтеха, где все бизнес-процессы завязаны на обработке данных, поиск нужных людей превращается в настоящую головную боль. Чтобы найти последнего DS я провёл 14 собеседований. За два года я проинтервьюировал более сотни людей. Теперь я могу объяснить, почему они всех так раздражают.

Снобизм

Karma police, arrest this man: he talks in math, he buzzes like a fridge. Я умею писать такие алгоритмы, что не каждый и поймёт. Если мой алгоритм не приняли — значит, они дураки. Очень часто именно так рассуждают многие DS. Хуже, когда на это накладывается снобизм академических институций.

Кто не оканчивал кафедру интеллектуального анализа данных Физтеха (или Школу анализа данных «Яндекса») — тот ничтожество и гордо называться «data scientist» не может. Это ещё один частый аргумент DS. По большому счёту, регалии ничего не стоят. Есть только два варианта: либо твой алгоритм приносит пользу, либо нет. И не важно, какое у тебя образование и как правильно называется твоя профессия.

Низкая квалификация

Профессия DS находится на этапе становления, попасть в неё можно буквально с улицы (например, простым инженером просто так не станешь — необходимо системное образование). Сложно даже представить, насколько легко перейти в эту профессию. Есть много инструментов для самообразования: Coursera, edX, Kaggle и прочее.

Большинство отличных data scientists — это самоучки, я это говорю с колоссальным уважением. Но эта доступность инструментов создаёт иллюзию лёгкого обучения. В какой-то момент вокруг DS возник хайп. В итоге на рынке труда с одной стороны ощущается дефицит кадров (потребность в специалистах за последние годы возросла в десятки раз), с другой — он переполнен людьми, которые ничего не умеют (хотя убеждены в обратном).

Мне иногда на собеседованиях DS пытаются рассказать все слова, которые выучили. На вопрос, как они представляют то, чем им предстоит заниматься, отвечают: «кластеризация», «классификация с помощью нейронных сетей», «классификация нечёткими логиками», «reinforcement learning» и так далее.

При этом для большинства из них это не более чем почерпнутый из online-курсов (чаще всего не пройденных до конца) «модный» сленг, позволяющий опознать «своих». Большинство при этом в лучшем случае способно вызвать готовую функцию из Python-библиотеки, понимающих механику работы алгоритмов — единицы.

Завышенные ожидания

Люди обучаются DS, потому что думают, что это сплошное творчество, что они будут «парить в алгоритмах», ну или на крайний случай заниматься сложными, но интересными проектами.

На деле — это тяжёлый рутинный труд, требующий концентрации сосредоточения. 90% работы любого DS — это обработка данных, поиск выбросов, проверка на их согласованность — занятия, далёкие от творчества в его романтическом понимании. В этом деле нужно уметь «щупать данные». Этого можно достичь только опытом и больше ничем.

Аутизм

Я наблюдаю у многих соискателей лёгкую форму высокофункционального аутизма. Им неинтересно общаться с другими людьми, а интересны лишь алгоритмы. По моим ощущениям, доля таких социально неадаптированных людей в DS примерно 60—70 %. Это профессиональное заболевание, как силикоз у шахтёров.

Но data scientist должен уметь общаться и работать в команде. В процессе выполнения задач сотрудникам нужно разговаривать с отделом финансов, продаж, рисков и прочее. В ID Finance DS неизбежно вплетены в производственную цепочку и более-менее разбираются в работе отделов маркетинга и финансов.

Конечно, это работает не везде: некоторые компании считают неумение общаться плюсом. Всех DS собирают в одном место, ставят кофемашину, приносят печеньки и разрешают полдня играть в Xbox, при этом получают хороший результат. Но таких компаний очень мало.

Для многих молодых людей профессия DS — этакая форма социального эскапизма. Они думают: «Я не хочу работать в офисе и стать к 30 годам героем песен Шнура, поэтому я пойду в data science. Это стильно, модно, молодёжно».

DS — это хипстеры от ИТ

DS всерьёз иногда думают, что лучше применять тот алгоритм, который моден в этом сезоне. Так, например, было с XGboost. Когда я спросил на очередном собеседовании, почему именно XGboost и как он работает. То услышал такой ответ: «Я точно не знаю, но вообще все пользователи на Kaggle используют этот алгоритм, получают отличные метрики, выходят в топ, гребут медали и призы».

При этом принцип работы этого алгоритма можно изобразить на обычном листке бумаги, в Coursera это делают на доске. Критерием выбора инструмента должна быть его практическая применимость для конкретной задачи.

Если у меня задача сделать базу данных, я буду использовать какой-то из диалектов SQL. Если нужно смоделировать приём сигнала на радар, то воспользуюсь языком С++. Я всегда буду выбирать инструмент под задачу. Я не буду делать сайт на C++ или писать операционную систему на PHP, хотя так тоже можно. Для чат-бота необязательно использовать динамические нейронные сети. Оставьте вообще в покое нейронные сети.

Непонимание бизнеса

Алгоритмы нужны не сами по себе, а в контексте бизнес-процессов. В конце концов, аналитик работает для того, чтобы компания заработала больше денег. И DS должен понимать, что это за рынок, откуда идёт доход и как в этом помогают модели, которые он создаёт.

Например, может ли быть так, что в группе людей, которым за 60 лет, больше владельцев iPhone, чем в группе людей, которым 20-30 лет? В России — однозначно нет. В Бразилии — почему бы и нет. Мы работаем в семи странах и неплохо, чтобы человек мог разобраться, чем уклады и традиции одной страны отличаются от уклада и традиций другой.

Новая элита: почему так раздражают дата-сайентисты

Неумение рассказать о том, что ты делаешь

Иногда DS не могут описать, как тестируется простая статистическая гипотеза. А это означает полнейшую профнепригодность. Он должен на человеческом языке рассказать, как алгоритм работает на том или ином шаге. Притом так, чтобы это стало понятно кому угодно. Самые сложные вещи должны объясняться простыми словами.

Если во время работы подойдёт, например, самый главный босс, и DS не сможет ему разъяснить что-то, его просто уволят. Логика руководства проста — если человек не понимает, как это работает, он не поймёт, что не сработает.

У них дурацкое название

Непонятно, как их лучше звать по-русски. Консенсуса по этому вопросу нет. Обычно их называют дата-сайентистами, сами они себя иногда зовут дата-сатанистами, вероятно, полагая, что это остроумно. Слово «аналитик» они старательно избегают, наверное, оно недостаточно «секси». Раньше шутили, что заводы в стране стоят, зато вокруг одни фотографы. Теперь будут шутить, что заводы стоят, потому что везде одни data scientists.

158158
82 комментария

Товарищ автор, приглашаем вас в наше большое и дружное комьюнити http://ods.ai, где общаются больше 10к русскоговорящих датасаентистов. Там можно детальнее обсудить профессию, p-value, xgboost и даже мемы про ml. Мы уже начали потихоньку накидывать аргументы "за" и "против", подтягивайтесь :)

34

Виталий, благодарю Вас за приглашение! По возможности — неприменно присоединюсь, хотя я, наверное, уже слишком стар и не моден для такого сообщенства:)

1

Как говорит один мой знакомый: «Если человек утверждает, что он дата-сайентист, то скорее всего он пиздабол»

26

А если и правда датасайентист? ЧТО ТОГДА??

Комментарий недоступен

29

вы тоже дата сайнтист?)

6