Новая элита: почему так раздражают дата-сайентисты

Руководитель департамента Data Science холдинга ID Finance Андрей Атрашкевич за два года проинтервьюировал более сотни специалистов и рассказал, что с ними не так.

158158

Товарищ автор, приглашаем вас в наше большое и дружное комьюнити http://ods.ai, где общаются больше 10к русскоговорящих датасаентистов. Там можно детальнее обсудить профессию, p-value, xgboost и даже мемы про ml. Мы уже начали потихоньку накидывать аргументы "за" и "против", подтягивайтесь :)

34

Виталий, благодарю Вас за приглашение! По возможности — неприменно присоединюсь, хотя я, наверное, уже слишком стар и не моден для такого сообщенства:)

1

Как говорит один мой знакомый: «Если человек утверждает, что он дата-сайентист, то скорее всего он пиздабол»

26

А если и правда датасайентист? ЧТО ТОГДА??

Комментарий недоступен

29

вы тоже дата сайнтист?)

6

Не понял, почему у многих комментаторов так бомбит на эту статью. Упомянуты вполне реальные проблемы, связанные с профессией (например, мало толковых кандидатов). Да и сам автор, по впечатлению, имеет большой опыт подбора / взаимодействия с DS'ами и отлично разбирается в теме. Так что его мнение по теме, имхо, довольно ценно в связи с упомянутыми выше обстоятельствами.

1

Андрей (автор), добрый день. Узнав, что вы из Сыктывкара, испытал гордость, что земляк возглавляет Data Science подразделение в солидной компании. Вы ведь помимо работы в индустрии занимались или занимаетесь наукой, судя по тому, что вы кандидат наук. Однако нигде не могу найти вашу кандидатскую работу. Не могли бы дать ссылку на вашу кандидатскую? Думаю, что она будет мне полезна, т.к. занимаюсь схожей тематикой.

17

Олег, по диссеру удалось найти вот это, там короче формулы какие-то :)
http://wiki.amplab.ru/cgi-bin/awki.cgi/?action=edit&revision=1.376&page=%D0%90%D1%82%D1%80%D0%B0%D1%88%D0%BA%D0%B5%D0%B2%D0%B8%D1%87%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9
Спящий дракон wolong из CыкГУ :(

Диссер не ищется, от слова напрочь. Автор пишет что аспирант - еще в 2015 году, т.е. диссер должен бы уже всплыть - хоть в виде автореферата. Фамилию автор вроде бы не менял. Мистика.

дата-сайентологи

12

Так и прочитал изначально 😅

5

дата-сатанисты

1

А мне казалось что ДСы должны иметь базовое инженерное образование в сфере ИТ или математическое. +Курс собственно самого напрвления ДС. При такой подготовке странно было бы не иметь глубокого понимания алгоритмов обработки данных.

5

Илья, вы совершенно правы, DS'у хорошо бы иметь базовое образование в области точных наук, которое затем углубить курсами по Data Science.

Но, во-первых, то, что тебе дают техническое образование не значит, что ты его действительно получишь. Довольно часто на собеседованиях я встречаю людей (с дипломами весьма почтенных ВУЗов), чей ответ на вопрос «что такое p-value», вызывал желание дать им учебником Ширяева (или хотя бы «Конспектом» Письменного) по голове, а затем заставить их читать эти книги quantum satis до полного просветления.

Во-вторых, обычная ситуация с пониманием «механики» алгоритмов DM / ML у очень многих соискателей должности Data Scientist'а прекрасно описывается этим замечательным мемом:

11

наличие базового инженерного образования+курс ДС не дает гарантировано глубокого понимания алгоритмов обработки данных. об этом автор говорит в том числе.

2

Есть нюансы. Для того, чтобы быть DS очень высокого уровня, таким, который способен разрабатывать алгоритмы и внедрять их в программный код, действительно нужно такое образование, причём в нашей стране, думаю, можно по пальцам пересчитать кафедры, которые могут его дать.

А вот если речь идёт о прикладном специалисте, который решает задачи с использованием готовых алгоритмов, то от него требуется в первую очередь хорошее понимание основ теории вероятностей, статистики и общее представление о том, как работают алгоритмы ML. И, как сказано в статье, опыт. А вот такой комплект в свою очередь, очень даже часто встречается среди людей, обучавшихся социальным наукам - экономике, психологии, социологии. Потому что объём курсов по теорверу и статистике там раза в два больше, чем получает средний студент-математик. Ну и многие задачи требуют domain knowledge в этих областях.

Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелегким, рутинным и, в общем-то, скучным трудом.

Видимо, у вас в ID Finance работают именно такие программисты? Будучи программистом не с мог пройти мимо :) Сделал вывод, что в ID Finance не посоветовал бы идти работать.
Вообще, говоря, в любой сфере есть хорошие специалисты и плохие. Вам почему-то только плохие попадаются, судя по статье.

5

Егор, добрый день!

В ID Finance работают прекрасные программисты, которые вызывают у меня чувство колоссального уважения, а порой и неподдельного восхищения (в т. ч. и в силу отличного от нуля навыка программирования в моём профессиональном анамнезе).

Думаю, Вы согласитесь, что работа программиста — это тяжёлый и изматывающий труд, требующий серьёзной концентрации и незаурядной дисциплины ума.

Попадаются мне очень разные кандидаты (программистов, напомню, я не отбираю), что прекрасно иллюстрирует один из частных случаев принципа Партео, более известного в этих Ваших интернетах как правило 95%:)

3

Сделал вывод, что в ID Finance не посоветовал бы идти работать.Я сделал вывод, что там только для своих, а чужих радостно отшивают, и есть даже специальный человек, который "валит" на собеседовениях всех :)

1

Интересно в каком месте предложения
Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелегким, рутинным и, в общем-то, скучным трудом.Вы прочитали в ID Finance работают плохие программисты

1

Не, у нас хорошие программисты, замечательные! Просто Андрею нужно было повысить градус драматургии в тексте. Немножк.

Почему то, после прочтения статьи, вызывает раздражение Руководитель направления департамента Data Science холдинга ID Finance, а не дата-саентисты.

12

Данила, да не то слово, не раздражение, а недоумение. Человек, который нанимает людей, тестирует их - открыто и подробно пишет о своей ненависти к ним. Мне даже интересно, как организован предварительный отбор кандидатов - и что там по зарплате предлагают, чтобы требовать перемножать 10-ти значные числа в уме (я все ждал когда автор статьи посетует на неспособность соискателей делать это)

2

Данила, добрый день!

Признателен Вам за помощь: исправил наименование моей должности.

1

Увеличивайте вилку и люди к вам потянутся

7

Данные щупаешь, да?

4

Комментарий недоступен

11

Привет, спасибо за статью. Было бы круто найти гифки и картинки пошире или убрать их совсем, будет лучше по оформлению.

5

Поиск негров на плантацию - и правда тяжелое и неблагодарное дело, что и пытался выразить автор статьи тематическими картинками. Первый, пожалуй, на vc материал (после откровений Грефа), о том что программисты - серые мышки, а дата аналитики - тоже дураки какие-то. Которые отчего-то должны ждать, когда к ним подойдет генеральный и спросит как всё работает, хотя при нормальной организации работы это какая-то ерунда.

4

Почему то как только кто-то из начальников начинает рассуждать про рынок труда-можно дальше не читать. И кандидаты у него плохие, и ленивые, и денег хотят и всех круче себя считают... Это профдеформация?

4

Там еще великий (величайший) ученый физмат. Диссер правда не ищется, видимо засекречен :)
Обычно все эти матмехи/мехматы в Google тусуются, и там друг друга поражают своим знанием теорем и функций. А тут что-то не вышло, и похоже, первая серьезная руководящая должность - на которой главное не нанять случайно кого-то умнее себя. Поэтому и задача _не_ нанять - выполняется успешно.
Хотя вброс знатный - вместо того чтобы просто оплатить вакансию (вакансии).

1

Не называют аналитиками, т.к. если вбить на ХХ.ру "Аналитик", то просто не найдешь вакансии, для которых необходимо применение машинное обучение, глубокое обучение, среди аналитиков которые занимаются только выгрузками из SQL-баз, аналитиков продаж и т.п. Просто можно попробовать и посмотреть, что выдает поиск. Писать в резюме "Аналитик" - это то же самое, как если вместо "Java-разработчик" писать "Программист" или "IT-шник".

4

Поломаю твой Inception

2

Котики столь же прекрасны как и сложные мемы про машинное обучение:)

Наверное, мне следует чувствовать гордость, что меня сравнили с ИНС:)

1

Я вот не понял этого кипеша ... посмотрел https://idfinance.com/ - там куча наград про Best microloan provider, Best micro-finance, online micro finance.
Так что, этот мега-пафос - он про то, как ловчее взять 1200% в год?
Меня еще удивило в оригинальной статье отсутствие хоть одного реального кейса про решаемые задачи - только обсуждение неимоверно высоких требований, и никакой конкретики .... Стоило ли так форсить-то :(
 
Ждем интервью от продавцов наркотиков и содержателей публичных домов, про трудности найма и контроля персонала в их сфере. Потому что больше микрофинансовых ростовщиков сравнивать конечно не с кем ...

Вакансии компании на HH - з/п не указана - как стыдно-то ...
https://spb.hh.ru/employer/1191643#vacancy-list
"ID Finance – международная fin-tech компания. По мнению Banki.ru наша компания была признана лучшей Финансовой компанией 2017 года! Команда была основана в 2012 году, но уже сейчас в нашем Холдинге более 500 человек и мы продолжаем расти! Наиболее известными активами ID Finance являются проекты MoneyMan и AmmoPay. Компания оперирует в России, в Казахстане и Грузии с 2014 года , с 2015 года в Испании и Польше, с 2016 года в Бразилии, с 2017 года в Мексике. R&D центр ID Finance расположен в Беларуси."

2

А вот чем тов. Атрашкевич занимается на работе. Точнее, пишет об этом.
"Больше всего нас интересуют деньги» – как мы предсказываем, вернет ли заемщик долг"
https://rb.ru/opinion/bolshe-vsego-nas-interesuyut-dengi/
..
об опыте внедрения скоринговой модели в Испании, с помощью которой можно отсекать неблагонадежных заемщиков .. индекс Джини ...
Мы анализируем маркеры, позволяющие оценить достоверность информации, которую заемщик указал о себе: смотрим с какого устройства он заполнил анкету кредита, какое разрешение экрана на этом устройстве, какая операционная система установлена на компьютере и какой мобильный оператор поставляет услуги связи.
Если заемщику за 60 лет, а он пользуется последним iPhone, это может насторожить, равно как и использование мобильного номера, зарегистрированного за несколько дней до подачи заявки на кредит. Конечно, мы берем и данные неполной кредитной истории.
...
Модель, разработанная для Испании, использует минимум информации, однако благодаря правильной обработке всех данных и использованию достаточно сложных математических вычислений выдает точный прогноз.
...
После внедрения первой модели в Испании мы разработали еще четыре – для других продуктов. Все модели работают несколько месяцев, удерживая индекс Джини на уровне 0,7. Когда далекие от аналитики люди спрашивают, с чем связана наша работа, я отвечаю, что мы предсказываем будущее.
..."

1

Так что, этот мега-пафос - он про то, как ловчее взять 1200% в год?

Это что-то плохое?

Комментарий удалён модератором

Здесь список курсов, можно что-то для себя подобрать. https://vc.ru/33816-25-kursov-dlya-nachinayushchih-data-analitikov

2

Добрый вечер!

Благодарю за столь высокую оценку моей статьи и, что более важно, за прекрасный вопрос.

К сожалению, полный и полезный ответ не может быть дан в формате комментария.

Очень скоро наша компания, ID Finance, откроет блог на другом популярном ресурсе (не знаю, этично ли давать название здесь). Вполне возможно, что и я, и ребята из моей команды попробуем дать ответ на важный и популярный вопрос «как стать Data Sceintist'ом».

Высшее техническое образование, конечно, будет полезно (если было получено именно образование, а не только диплом). При этом его наличие не является stop-фактором или условием sine qua non. Два моих знакомых, прекрасных Data Scientist'а имеют образование лингвиста и биолога. Конечно, им было очень сложно по сути заново учить «базу». Но их усилия возымели успех, и они не DS'ы не хуже (а во многом и лучше) тех, кто получал образование в области математики, физики, компьютерных наук или инженерного дела.

Если речь идёт о том, что стремящийся стать DS'ом не помнит, что такое логарифм, то, наверное, стоит начать именно с повторения школьной математики. При этом, полезно будет понять не только (и не столько), ЧТО такое логарифм, а ЗАЧЕМ он был нужен и ПОЧЕМУ месье Лаплас говорил, что «логарифмы, сокращая время вычислений, удлинили жизнь астрономов». Аналогичные вопросы задавать себе следует и при переучивании всех разделов математики. Например, подумайте, почему нормальное распределение именно такое. Не с неба же оно свалилось, правда?:)

Если у Вас остались вопросы и Ваш интерес не чисто теоретический, то обращайтесь лично (почта, социальные сети), я постараюсь ответить (скорого ответа не обещаю).

1

Про аутизм и непонимание бизнеса на 100% солидарен с автором. Как если бы я сам это писал.

2

Сколько модных слов и как много людей в теме!!! А тупую эксель табличку до сих пор хрен получишь от “профильных” подразделений. Одни DS вокруг латте усасывают

1

Лог-регрессия уже никого не вставляет, всем подавай случайные леса :)
На сколько более точными стали модели у ID Finance, с учетом новомодного DS?

Андрей, здравствуйте!

logit — это отличный алгоритм для скоринга, особенно в парадигме rapid model development. Я ни в коей мере не умаляю его значимость.

«Новомодный» DS, как Вы, несомненно знаете, может использоваться не только для предиктивных моделей, но и, например, для chat-bot'ов, анализа на графах и распознования паттернов поведения при печати текстов, где logit не применим от слова совсем.

В целом использование DS приносит явную пользу компании. В финтехе совершенно невозможно держать подобное подразделение просто «для имиджа» или из-за «моды». Если бы труд дата сайентистов был бесполезен или маловыгоден, этих людей в нашей компании, пристально следящей за эффективностью всех бизнес-процессов, просто бы не было, не так ли?

1