Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Хакатоны до сих пор в моде. Регулярно выходят множество материалов – колонок, репортажей, записей в блогах, где хакатоны преподносятся как безусловное благо для профессионального сообщества. Это не так. Специалист по Data Science ID Finance Иван Серов рассказывает, почему эти соревнования не только полезны, но и вредны.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Подмена понятий

У участников хакатонов происходит деформация сознания. Причина в том, что в любых соревнованиях необходимо оценивать результат. В гиревом спорте все понятно – кто поднял гирю тяжелее, тот и выиграл, в футболе – тоже: кто забил больше голов - тот победил.

В соревнованиях по Data Science на Kaggle все по-другому: для того, чтобы выбрать победителя вводится оценочная метрика. Обычно через две недели после начала соревнований возникает десятки групп с результатами, которые отличаются на сотые доли (например, 0,852 и 0,853). Ребята начинают рубиться за третью или четвертую цифру после запятой. Проделывается колоссальная работа по усложнению алгоритмов и созданию так называемых ансамблей (когда результаты нескольких моделей усредняются), причем сами соревнующиеся не всегда до конца их понимают, а используют чужой код, который сейчас лежит в открытом доступе. Подменяется идея решения задачи на погоню за улучшением метрики.

Непригодность для реальных условий

На практике важно не только решить задачу, но и сделать это за приемлемое время. На Kaggle есть дедлайны, но они слишком растянуты и часто побеждает модель с хорошей метрикой, на реализацию которой требуется огромное количество часов. В реальном бизнесе сроки жестко ограничены, например, в финтех-компаниях иногда требуется сделать что-то глобальное за три дня. Компании берут в работу модель с худшими показателями. Из двух вариантов: алгоритм с качеством 0,7 (идеальное решение – это единица) сделанный за неделю или алгоритм 0,8 изготовленный за два месяца, любой нормальный бизнес выберет первый. Потом, конечно, этот алгоритм доделают и улучшат.

Любой результат работы должен приносить деньги, а не показывать отличные показатели и метрики, это абсолютная аксиома. Но ее не всегда понимают участники соревнований. Аналитики часто делают сложные алгоритмы, так называемые «черные ящики» - они непонятны никому, включая создателя. Никто кроме Леонида Якубовича, а тем более бизнес, не любит «черные ящики», потому что не понимают их. От них есть безусловная польза, но важно уметь объяснить ее.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Нежизнеспособные модели

Очень часто на практике можно увидеть, как модель, которая показывала великолепный результат во время проверки сразу после внедрения сильно падает. В первую очередь это связано с так называемым переобучением, когда алгоритм не вытаскивает закономерности, а просто запоминает данные, свойственные только обучающей выборке.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Задачи с решением

На соревнованиях решают задачу, которая заведомо имеет решение. У Стругацких был герой - Кристобаль Хозевич Хунта, который возглавлял отдел неразрешимых проблем. Хунта считал, что решать задачу, у которой есть решение, - скучно, самое интересное – биться над задачей, у которой решения нет. В реальных условиях такое случается довольно часто: аналитику дают задачу, а он понимает, что выполнить ее не может, потому что нет данных или неверно определенно событие, — это нормальная ситуация. Каждая третья или четвертая задача получает статус нерешаемой. Хакатоны прививают мысль о том, что всегда можно найти выход и аналитики теряют драгоценные часы в бесполезных поисках. Хакатоны воспитывают высококвалифицированных, но все же рабочих, «классных маляров». Таких ребят любят крупные корпорации. Но они посредственные художники.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Свои люди

На соревнованиях ты можешь выбрать команду и прийти со знакомыми и друзьями, которые понимают тебя с полуслова. На работе тебя посадят в окружение не всегда самых приятных для тебя людей. Этот опыт может быть травмирующим. Дело в том, что data scientists, как представители точных наук, как правило, асоциальны и любят работать в одиночку, но на работе так не получится. Это можно вылечить, если осознать, как проблему. Ученые исправляют это административной работой и преподаванием, а дата сайентисты – знакомством и общением с бизнесом, например, с маркетологами или сэйлзами.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Плюс хакатонов

Этот пункт отчасти следует из прошлого: самое важное в хакатонах – это не работающая модель, а навык общения при решении задач. Ценность коммуникации очень высока для дата-саентистов и без развития данного навыка сложно стать успешным в этой профессии. Кроме этого, любая команда всегда состоит из тех, кто везет и тех, кто на них ездит. Когда ты на практике встречаешь людей, которые пытаются выехать за счет тебя — это снимает розовые очки.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Чем лучше заняться?

Для профессионального развития лучше работают универсальные «дедовские методы». Самые лучшие data scientists — не модные программисты, а консерваторы, которые получили образование в области ядерной физики или закончили кафедру теории вероятности Мехмата. Такое образование — это как фундамент, который держит все здание. Не стоит забывать про классические университеты.

Повысить навыки взаимодействия поможет Coursera, где на каждом обучающем курсе есть свой форум. Такие площадки еще раз доказывают, что общение студентов не менее важно, чем лекции. Есть тематические форумы, например, Stack Exchange, Mathematics Stack Exchange и пр., которые могут помочь решить все сложные задачи. Я не против Kaggle или хакатонов, я против того, чтобы участие в них рассматривалось как важный навык для профессии. Эти инструменты сильно переоценены.

99
2 комментария

У меня пальцев на руках не хватает, чтобы перечислить сколько крутых и мощных продуктов вышло благодаря вбросам хакатонах. И сколько людей объеденились. Касаемо специфики и дедлайнов, конечно на таких мероприятиях никогда разрыва шаблона не произойдет. Все прекрасно понимают и условия и саспиенс.

такая чудная статья и такой жидкий вывод