Пять​ ​главных​ ​навыков​ ​хорошего​ ​data​ ​scientist,​ ​которым​ ​не​ ​учат​ ​в​ ​книгах

О том, какие навыки на самом деле нужны аналитикам данных и специалистам по машинному обучению, — взгляд основателя компаний InsideDNA и Skinomica, ранее — ведущего специалиста Booking.com Анны Костиковой.

Анна Костикова
5050

На фоне статей об Аязе, БМ и им подобным, посты такой проблематики выглядят как сигнал из параллельной вселенной. И естественно комментариев не густо, так как чтобы дискутировать в данной проблематике, необходимо обладать соответствующим понятийным бэкграундом. Очень расстраивает сей факт. То ли на vc публика не соответствующего уровня, то ли......короче грустно. Причем стиль изложения не сказал бы что прямо специальный, скорее с желанием объяснить даже тем кто не в теме суть вопроса. В общем Анна молодец, что тут сказать))) А я старый никчемный обезьян)) Прочел с удовольствием.

26
Ответить

спасибо! ну я думаю, главное озвучивать такие темы - и народ подтянется и будет потихоньку обсуждать.
А статью "проверяла" на брате-дизайнере - сказал, что что-то понял:) но надо, конечно, еще работать над понятностью, чтобы родителям можно было послать;)

5
Ответить

Есть ли шанс, что те, о ком вы говорите в негативном ключе, как раз занимаются тем, о чем сказала Анна?
В статье очень хорошая и емкая фраза: "...если трафика нет — можно идти прямиком к основателю компании и объяснять, что большую часть бюджета пока нужно тратить на маркетинг и продажи".

И после того, как наберется критическая масса компаний, у которых есть трафик - станет понятно, что без DS никуда.

Ответить

Я бы свёл к двум пунктам:

1. Наличие критического мышления (не тупо брать под козырек, а постоянно задаваться вопросом: а не хуйню ли я делаю)

2. Умение делать нормально (хорошо = долго и уже никому не нужно; плохо = и так никому не нужно)

12
Ответить

100% отличное саммари!

Ответить

В двух словах:
1. Задроство мало где приветствуется
2. Собственник хочет оунершип от наёмного сотрудника за наемную зп - как это мило, но увы - неоригинально.

8
Ответить

но ведь так (с оунершипом) все лучше? больше бонусы к наемной зарплате, выше сама зарплата? разве нет?

3
Ответить

Простите, но ownership - это атртбут владельца бизнеса, а не наемного инженера. Если вы и находите такого уникума, то знайте: через три месяца он вас кинет и создаст свою ML/AI - контору. Это я вам как владелец бизнеса говорю

4
Ответить

уйти с работы = кинуть, спасибо, можете не продолжать

1
Ответить

Как-то больно сложно, я думал проще все - хватай данные, да анализируй!

3
Ответить

:) так тоже можно

Ответить

анализируй это! ;)

Ответить

Звучит как интересная работа, а на деле опять общение с людишками.
Все же, Data Scientist должен быть тихим социофобом и -патом с тайной лабораторией с суперкомпьютером на острове, разрабатывающим коварный план порабощения человечества.

(краткая история картинки - якобы объявление о продаже машины, размещенное в Ирландии: 1985 Blue Volkswagen Golf • Only 15 km • Only first gear and reverse used •
Never driven hard • Original tires • Original brakes • Original fuel and oil • Only 1 driver •
Owner wishing to sell due to employment lay-off • Photo Attached

3
Ответить

отличная статья! на английском выпустили?) это не только для данного ресурса было бы актуально

Ответить

Спасибо! Нет, пока только на русском - эксклюзивно для любимого vc.ru:), но вот, думаю, может на medium написать английскую версию?

11
Ответить

большинство пунктов универсальны для любого работника :)

однако в других областях есть же специализация
не все могут понимать бизнес-задачу - это аксиома. поэтому еще сто лет назад выделили бизнес-аналитиков, которые этим занимаются и передают уже расжеванную задачу в техотдел, где проджект менеджер еще ее дожевывает и отдает исполнителям.

есть ли / возможно ли такое в DS?
если человек знает все виды NN и когда какую применять, то почему нельзя использовать его скилл? это же просто как программист который хочет программировать, а не улучшать бизнес (и имеет на это право).

1
Ответить

чего подумалось - ежели назвался data SCIENTIST - так надо бы и копаться в алгоритмах :)
а если хочешь бизнесу помогать - будь дата аналитиком например.

1
Ответить

да, это тоже очень хороший вариант кстати, обычно таких людей выделяют в особый отдел типа R&D

1
Ответить

Вот эти "почти 200 человек и примерно пяти отделов" в Букинге были заняты в основном "простенькая логистическая регрессия или базовый алгоритм ранжирования" три недели в году и остальное время "убеждение всех окружающих в полезности подхода"? Получение такой работы возможно только "после защиты кандидатской в Швейцарии и нескольких лет работы в Швейцарском институте биоинформатики"?

1
Ответить

ну, бизнес задач же очень много - от того, чтобы например понять сколько и когда нанимать людей на customer support и как приоритизировать тикеты до условного fraud detection и выявления плохих транзакций. А народ очень разный - много и из научно-исследовательской среды, но и просто с высшим образованием. Но вот на убеждение и внедрение уходит и правда очень много времени

1
Ответить

Отличная статья, все по делу.
По каждому пункту согласен и прямо отражает боль всего опыта работы в аналитике )
Единственное замечание - я бы не требовал всех этих скилов от DS. Да, это офигенно если хорошие DS с таким набором скилов существуют, но большинство задач утыкаются в коммуникации и их может решать менеджер на этапе согласования тех задания. Я в принципе этим обычно и занимаюсь.

1
Ответить

да - если есть хороший продакт, который может взять на себя эту роль - то так тоже сработает

Ответить

"За три года работы в Booking, наша команда DS и ML выросла с 25 человек и четырёх небольших команд до почти 200 человек и примерно пяти отделов. "
- в итоге свою платформу сделали для тренировки моделей, online prediction и тп. или какой-нибудь hadoop/spark использовали?

1
Ответить

Мне кажется, ответ из этой статьи очевиден, нет?:)

Ответить

Анна, спасибо за материал. Именно в таком же контексте пытаюсь рассказывать студентам об анализе данных. Большинство, к сожалению, без опыта растраты собственных денег, не осознают проблему «необходимость/эконом.смысл/время».
Вопросы такие. Как Вы попали в биоинформатику? Считаете ли Вы, что биологические науки в принципе являются драйвером развития прикладных DS?

Ответить

Спасибо! мое первое образование биологическое и я целенаправленно ехала в аспирантуру в Швейцарию именно по этой теме - очень было интересно.

Интересное замечание про драйвер развития. И да, и нет:) - с одной стороны, биологам приходится придумывать много интересных подходов для своих чисто биологических задачек, и потом эти подходы распространяются в бизнес (например, Байесовские методы и иерархические модели). Но и из других отраслей тоже идет не меньший поток - к примеру A/B тестирование или survival analysis - это исходно ведь клинические испытания. Условный тест Фишера - изначально про популяционную генетику. А например, MCMC - ядерная физика.

То есть по большому счету очень много и в статистики и в математике от того, что какой то ученый в своей прикладной отрасли имел нужду в инструментарии - вот и придумал. Ведь производных высших порядков, ряды Тейлора были придуманы Ньютоном тоже не просто так - он кажется хотел изучать движение планет и ему "не хватало" инструментов.

2
Ответить

Абсолютно согласен с Вами, Анна. Сначала все смеялись над фразой Грефа, только до немногих дошел основной посыл его фразы: "нам не нужны чистые программисты". Никому не нужны горе математики/программисты и пр. плодящие 1001 одну модель, и тыкающие пальцем в небо и иногда угадывающие (сломанные часы тоже два раза в день показывают правильное время) и нихрена не понимающие в том, что анализируют с точки зрения бизнеса. Как может DS анализировать сегодня финансы, завтра страховой бизнес, после завтра геном и т.д. Да никак! Вот таких никаких "спецов" у нас 98%. Например, посмотрите стримы Яндекс ML тренировок, увидите парад тщеславия недоспецов.

1
Ответить

У, сколько эмоций, каков слог! Тем больше жаль, что ядрёный спич омрачён плохим русским.

Ответить

Вы путаете предметную область и навыки специалиста.
Человек может работать сначала в страховом бизнесе, потом в финансах, а завтра -- геном анализировать.
Да, есть специфика конкретной области, но она осваивается за пару месяцев.

Ответить

Жаль, что не увидел в статье ни одного живого примера, хотя поводов для этого достаточно. Ещё более жаль, что автор заканчивает статью в заключении.
А так - да, познавательно, спасибо.

Ответить

спасибо за комментарий, Роман! согласна, надо было больше примеров дать, я просто опасалась, что слишком сильно раздуется статья. В следующий раз учту:)

1
Ответить

А знаете что, Анна. Неясно очень, зачем наводить какой-то флер "о чем не учат в книгах". Всё что перечислено, это не навыки. Это стандартное менеджерское мышление, и ему учат. Причем тут DS - ну если честно не при чем. Потому что учат в книгах по другим дисциплинам. По той же экономике-менеджменту например. Есть даже понятие стоимостного мышления, ему минимум лет 20.

И да, если быть до конца откровенным, статья - вольное изложение процесса CRISP-DM. И опять же, навыки тут не при чем.

Навыки - и прочая HR'ная муть - болото манипуляций. Если процесс есть, то его можно проконтролировать. А вот навыки и их уровень - пойди познай. Любому можно сказать что они есть/нет/достаточные/недостаточные - причем разное в каждой ситуации.

Ничего личного.

Ответить

Да, согласна, статья скорее про грамотный продакт-дев, а не про чистый дата сайенс, но согласитесь, одного от другого в бизнесе почти не отделимо. А про CRISP-DM - любопытно, первый раз прочитала про него и да, довольно много похожего

1
Ответить

Отличная статья! Про пивот таблицу и магический прибор улыбнуло, но на моей практике видел отношение к DS в подобном стиле.:D

Ответить

спасибо! более того, я прям скажем испытывала неоднократно:)

Ответить

Очень противоречивая статья, особенно про перфекционизм в кодинге. Затраты на время выполнения кода, потребляемые мощности это деньги бизнесса; отщебятина очередной выскочки.

Ответить