реклама
разместить

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Хакатоны до сих пор в моде. Регулярно выходят множество материалов – колонок, репортажей, записей в блогах, где хакатоны преподносятся как безусловное благо для профессионального сообщества. Это не так. Специалист по Data Science ID Finance Иван Серов рассказывает, почему эти соревнования не только полезны, но и вредны.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Подмена понятий

У участников хакатонов происходит деформация сознания. Причина в том, что в любых соревнованиях необходимо оценивать результат. В гиревом спорте все понятно – кто поднял гирю тяжелее, тот и выиграл, в футболе – тоже: кто забил больше голов - тот победил.

В соревнованиях по Data Science на Kaggle все по-другому: для того, чтобы выбрать победителя вводится оценочная метрика. Обычно через две недели после начала соревнований возникает десятки групп с результатами, которые отличаются на сотые доли (например, 0,852 и 0,853). Ребята начинают рубиться за третью или четвертую цифру после запятой. Проделывается колоссальная работа по усложнению алгоритмов и созданию так называемых ансамблей (когда результаты нескольких моделей усредняются), причем сами соревнующиеся не всегда до конца их понимают, а используют чужой код, который сейчас лежит в открытом доступе. Подменяется идея решения задачи на погоню за улучшением метрики.

Непригодность для реальных условий

На практике важно не только решить задачу, но и сделать это за приемлемое время. На Kaggle есть дедлайны, но они слишком растянуты и часто побеждает модель с хорошей метрикой, на реализацию которой требуется огромное количество часов. В реальном бизнесе сроки жестко ограничены, например, в финтех-компаниях иногда требуется сделать что-то глобальное за три дня. Компании берут в работу модель с худшими показателями. Из двух вариантов: алгоритм с качеством 0,7 (идеальное решение – это единица) сделанный за неделю или алгоритм 0,8 изготовленный за два месяца, любой нормальный бизнес выберет первый. Потом, конечно, этот алгоритм доделают и улучшат.

Любой результат работы должен приносить деньги, а не показывать отличные показатели и метрики, это абсолютная аксиома. Но ее не всегда понимают участники соревнований. Аналитики часто делают сложные алгоритмы, так называемые «черные ящики» - они непонятны никому, включая создателя. Никто кроме Леонида Якубовича, а тем более бизнес, не любит «черные ящики», потому что не понимают их. От них есть безусловная польза, но важно уметь объяснить ее.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Нежизнеспособные модели

Очень часто на практике можно увидеть, как модель, которая показывала великолепный результат во время проверки сразу после внедрения сильно падает. В первую очередь это связано с так называемым переобучением, когда алгоритм не вытаскивает закономерности, а просто запоминает данные, свойственные только обучающей выборке.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Задачи с решением

На соревнованиях решают задачу, которая заведомо имеет решение. У Стругацких был герой - Кристобаль Хозевич Хунта, который возглавлял отдел неразрешимых проблем. Хунта считал, что решать задачу, у которой есть решение, - скучно, самое интересное – биться над задачей, у которой решения нет. В реальных условиях такое случается довольно часто: аналитику дают задачу, а он понимает, что выполнить ее не может, потому что нет данных или неверно определенно событие, — это нормальная ситуация. Каждая третья или четвертая задача получает статус нерешаемой. Хакатоны прививают мысль о том, что всегда можно найти выход и аналитики теряют драгоценные часы в бесполезных поисках. Хакатоны воспитывают высококвалифицированных, но все же рабочих, «классных маляров». Таких ребят любят крупные корпорации. Но они посредственные художники.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Свои люди

На соревнованиях ты можешь выбрать команду и прийти со знакомыми и друзьями, которые понимают тебя с полуслова. На работе тебя посадят в окружение не всегда самых приятных для тебя людей. Этот опыт может быть травмирующим. Дело в том, что data scientists, как представители точных наук, как правило, асоциальны и любят работать в одиночку, но на работе так не получится. Это можно вылечить, если осознать, как проблему. Ученые исправляют это административной работой и преподаванием, а дата сайентисты – знакомством и общением с бизнесом, например, с маркетологами или сэйлзами.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Плюс хакатонов

Этот пункт отчасти следует из прошлого: самое важное в хакатонах – это не работающая модель, а навык общения при решении задач. Ценность коммуникации очень высока для дата-саентистов и без развития данного навыка сложно стать успешным в этой профессии. Кроме этого, любая команда всегда состоит из тех, кто везет и тех, кто на них ездит. Когда ты на практике встречаешь людей, которые пытаются выехать за счет тебя — это снимает розовые очки.

Почему дата саентистам не стоит участвовать в соревнованиях и хакатонах

Чем лучше заняться?

Для профессионального развития лучше работают универсальные «дедовские методы». Самые лучшие data scientists — не модные программисты, а консерваторы, которые получили образование в области ядерной физики или закончили кафедру теории вероятности Мехмата. Такое образование — это как фундамент, который держит все здание. Не стоит забывать про классические университеты.

Повысить навыки взаимодействия поможет Coursera, где на каждом обучающем курсе есть свой форум. Такие площадки еще раз доказывают, что общение студентов не менее важно, чем лекции. Есть тематические форумы, например, Stack Exchange, Mathematics Stack Exchange и пр., которые могут помочь решить все сложные задачи. Я не против Kaggle или хакатонов, я против того, чтобы участие в них рассматривалось как важный навык для профессии. Эти инструменты сильно переоценены.

99
реклама
разместить
2 комментария

У меня пальцев на руках не хватает, чтобы перечислить сколько крутых и мощных продуктов вышло благодаря вбросам хакатонах. И сколько людей объеденились. Касаемо специфики и дедлайнов, конечно на таких мероприятиях никогда разрыва шаблона не произойдет. Все прекрасно понимают и условия и саспиенс.

такая чудная статья и такой жидкий вывод

Nothing представила Phone (3a) и (3a) Pro с тремя основными камерами и встроенными функциями ИИ

Цены на устройства — меньше $500.

Источник здесь и далее: Nothing
1515
66
44
22
11
Это настоящий УБИЙЦА АЙФОНА
реклама
разместить
Госдума поддержала в первом чтении законопроект о штрафах до 500 тысяч рублей за продажу энергетиков детям

С 1 марта 2025 года продавать энергетики несовершеннолетним запрещено по всей России.

77
33
Европа вооружается стремительными темпами

1) Смотрим на следующий график. Вводные все те же. Начало графики - 6 ноября 2024 года, дата избрания Трампа президентом. Что на картинке:

На двух станциях метро в Санкт-Петербурге запустили оплату проезда «лицом»

Чтобы воспользоваться этим методом, нужно зарегистрироваться в системе и привязать биометрию к банковской карте.

Источник: Комитет по транспорту Санкт-Петербурга / «Фонтанка»
77
22
11
Правительство не продлило мораторий на выездные налоговые проверки ИТ-компаний

Его действие завершилось 3 марта 2025 года.

Фото РБК
1212
99
11
Тупняк конечно феерический. Какой нахрен мараторий? Есть подозрение что чтото в компании не чисто - проверяй, нет подозрений, не мешай работать.
«Аэрофлот» возвращается к дивидендам: сколько можно заработать на акциях авиакомпании в 2025 году?

2024 год стал для «Аэрофлота» годом восстановления. Компания впервые с 2019 года завершила год с чистой прибылью в ₽55,02 млрд, а скорректированная чистая прибыль достигла ₽64,2 млрд. Это важный шаг для авиакомпании, которая долгое время балансировала на грани убытков. Но что это значит для инвесторов? Давайте разберемся.

05.03.2024
США начали обсуждать план по смягчению санкций против России — Reuters

Госдеп и Минфин готовят предложение по снятию санкций с отдельных юрлиц и физлиц. С кого именно — неизвестно.

3939
1515
33
22
22
22
11
11
На переговоры с трампом нужно посылать не чиновников, а специалистов, которые разводят пенсионеров и ветироанов на миллионы рублей. Они американского деда так опрокинут, что он даже ничего не поймет, выполнит все условия и еще аляску взад подарит.
[]