5 историй с хакатонов

Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились победителями или призерами как минимум в 10. Вот некоторые из наших призовых мест:

  • 1 место в Хакатоне по ИИ в Санкт-Петербурге в кейсе от Минпромторга «Доступные лекарства для всех», 2021
  • 3 место Evraz AI Challenge, трек: Продуйте металл через Data Science, 2021
  • 1 место в хакатоне «Умные города, промышленность, ТЭК» (ENERGOMACH) конкурса Цифровой прорыв, 2021
  • 1 место в кейсе “Сила Трансформатора” хакатона КРЭА (Концерн Росэнергоатом, Росатом), 2021
  • 2 место в хакатоне Цифровой форсаж атомных городов, 2020
  • 2 место на хакатоне Datamasters, 2020
  • 3 место на VirusHack, 2020
  • 3 место в хакатоне AC-VO&PPR, 2020
  • 1 место во всероссийском конкурсе Цифровой прорыв на всероссийском уровне (трек - “Дефектоскопия трубопроводов” - Газпром-нефть), 2019
  • 1 место во всероссийском конкурсе Цифровой прорыв в Московском регионе (трек - “Предиктивная диагностика лифтового оборудования” - ДИТ Москвы), 2019
Победа на хакатоне Цифровой прорыв в 2019 году
Победа на хакатоне Цифровой прорыв в 2019 году

С 2022 года мы больше фокусировались на проектах и почти перестали участвовать. Если и участвовали, то скорее пытались найти проекты и получить доступ к заказчикам. Возможно, в будущем расскажу о хакатонах, как о канале продаж услуг (спойлер: все не очень хорошо), но сейчас речь не совсем об этом. Кстати, все материалы с разных площадок, где я выступаю или пишу, с недавнего времени я начал собирать в свой тг канал, можете подписаться.

В этом посте я расскажу, с чем вам придётся столкнуться на российских хакатонах, в пяти болезненных историях. Мой опыт включает как участие до пандемии в оффлайне, так и хакатоны, проходившие во время пандемии в онлайне или сейчас - в гибридном формате. Какие проблемы поджидают вас на хакатонах? Что делать и чего ждать от хакатонов, если до этого участвовал в соревнования на кагле? Зачем вообще нужны хакатоны дата сайентисту? Эти и другие вопросы мы обязательно затронем.

Немного дисклеймеров: Сразу стоит оговориться, что мы с командой не участвовали (и пока не планируем) в хакатонах mhl (major league hacking), а также в трёх крупных российских хакатонах: Hack.Moscow, Moscow City Hack и Лидеры цифровой трансформации, так как не видели там для себя интересных задач. Возможно эти хакатоны не имеют недостатков, описанных в статье, но ничего не могу про это сказать. Что же нам интересно, если даже входивший в mlh Хак Москоу не выставил подходящие задачи? Интересны нам в первую очередь задачи промышленной диагностики оборудования, где необходимо анализировать данные с датчиков и создавать системы предиктивной аналитики или рекомендательные системы для технического/управленческого персонала. Мы редко решаем что-то не по этой теме, но даже тогда это что-то близкое к технической области.

История первая: Ну вот же данные…

Суть проблемы: Несоответствие задачи/описание данных на бумаге и фактических.

5 историй с хакатонов

Одна из самых тяжелых проблем: если организаторы забывают, что участникам нужны не только описания данных, но и сами значения, то и разговаривать с ними очень сложно, так как очевидно, что люди просто не понимают, что такое анализ данных, для них это что-то похожее на бизнес-аналитику и консалтинг. Помните, что где-то плачет дата сайентист, когда вы выставляете такую задачу. Конкретно нам в такой ситуации сказали примерно следующее: “Ну, мы же вам данные дали, все признаки там есть, все подробно описано. Что ещё нужно, чтобы обучить модели для обнаружения аномалий в *где бы то ни было*?”. При этом данные, которые нам дали:

И нет, не подумайте, что это описание переданных данных, это и есть <b>все</b> данные. Пришлось несколько часов объяснять, что <i>описание данных</i> ≠ <i>данные</i>.
И нет, не подумайте, что это описание переданных данных, это и есть все данные. Пришлось несколько часов объяснять, что описание данныхданные.

В итоге оказалось, что одной из фишек в тот момент стало собрать свои данные (хотя изначально этого не предполагалось). Мы заказали такси, съездили домой за ардуинками с датчиками и принялись не только делать приложение с блэкджеком аналитикой и дашбордами, но еще и разрабатывать собственную систему сбора данных на коленке. Пара сильных команд снялись в момент всеобщего осознания, что в первый день данные нам не дадут. Напомню, что хакатон идёт всего 2 дня.

Вывод: можно ошибки организаторов трансформировать в преимущества собственного решения, но главное – беречь свое душевное равновесие и иногда сниматься с хакатонов.

ПС: в итоге хоть какие-то (синтетические) данные о поломках оборудования нам дали на второй день, но первые два места заняли команды, сами собравшие системы сбора данных на коленке и собравшие/нагенерившие данные для анализа.

История вторая: А разговоров-то было…

Суть проблемы: Под такой заголовок может подойти много разных историй, но я расскажу историю о невыполненных обещаний по продолжению сотрудничества после хакатона.

5 историй с хакатонов

Наверняка многие читали о том, что возможны различные варианты сотрудничества с организаторами/кейсожержателями - от трудоустройства до инвестиций или покупки решения. Кажется очень привлекательным сделать за пару дней какой-то mvp, а с тобой уже начинают хотеть сотрудничать, даже деньги, помимо призовых, обещают – так и до стартапа недалеко. На самом же деле, практически ни одна компания не готова вкладывать деньги в двухдневный продукт, но какой смысл об этом заявлять? Во-первых, от желания действительно посотрудничать, чтобы из этого получилась красивая история инвестиции в стартап, который вырастит в самостоятельную компанию и помимо решения конкретной боли заказчика, ещё и станет новым бизнесом компании, окупив вложения даже в организацию хакатона.

Зачем компании нужен хакатон можно почитать здесь. На деле, как бы мы не старались (а мы старались практически после каждого призового места), в лучшем случае дело доходило до пары встреч, после которых было очевидно, что можно готовиться к следующему хакатону, где точно повезёт.

История третья: необъективное сравнение

Суть проблемы: Здесь я имею в виду необъективное сравнение решений разных треков/кейсов.

5 историй с хакатонов

Довольно часто проходят хакатоны, где есть единый призовой фонд для победителей, а треков или кейсов решается на хакатоне несколько. То есть победители выбираются вне зависимости от кейса в общем сравнении. Хотя как раз обычно побеждают не те команды, кто лучше решил свой кейс, а те, чей кейс просто более интересный и запоминающиеся. Как можно сравнивать кейс про разработку системы мониторинга состояния станка на заводе и систему распознавания лиц или робототехнику или систему для управления дронами. Наверное, при хорошо сформулированных критериях оценки, подобное сравнение можно сделать объективным и фокусировать жюри на оценку качества решения каждого отдельного кейса, но на практике, во-первых, критерии оценивания хромают почти всегда, во-вторых, субъективность жюри при оценке никак убрать не получится.

Наверное, такая проблема связана с попыткой привлечь больше команд, больше кейсодержателей, увеличить масштаб хакатона, но сделать это с ограниченным бюджетом, чтобы награждать всего одну призовую тройку. После пары попаданий на такие хакатоны мы перестали участвовать, потому что здесь невозможно что-то прогнозировать, а кейсы, которые нам интересны, обычно не самые яркие, хоть мы и старались показать какой-то вау-эффект в рамках нашего кейса. Не работает.

История четвёртая: невыполнимая задача…

Суть проблемы: Как бы ты не старался, шанс сделать и продемонстрировать законченное решение стремится к нулю.

Тут дело не только в том, что надо делать сначала что-то простое и рабочее, пусть даже без всякого машинного обучения, но и вся суть хакатонов в области data science
Тут дело не только в том, что надо делать сначала что-то простое и рабочее, пусть даже без всякого машинного обучения, но и вся суть хакатонов в области data science

Стоит признаться, что нам такая проблема встретилась лишь однажды, но она заставила сняться с хакатона после 24 часов работы (остальные команды снялись еще раньше, и кейс остался вообще без решений), поэтому стоит о ней написать и предупредить читателей заранее.

Бывает, что компанию или отдельных людей просят подготовить data science кейс на хакатон, но у людей нет сил/времени/представления о хакатонах (выбери свой вариант). В таком случае возможно разное, но одной из самых больших проблем в ДС задаче может быть ее невыполнимость. Почему я говорю именно про ДС задачу? Потому что как правило в ДС задаче нужно получить в виде результата помимо презентации ещё и значение метрики качества. В лучшем случае, задача решается с плохим качеством и это просто отвергнутая бизнес гипотеза (отличная причина для компании ставить кейс на хакатон), в худшем случае задача не решается за время хакатона и участники не способны дойти до значения метрики. Понимая такой риск, участники могут концентрироваться не на качественном (насколько это возможно в рамках хакатона) решении, а на получении первого результата, возможно даже без машинного обучения. Наверно, опытные хакатонщики по дефолту не совершают такую ошибку и работают над самой простой версией решения сразу, но новичкам это может быть полезно знать.

Чтобы не столкнуться с такой проблемой постановщики кейсов на хакатоны часто дают решённые задачи (что, на мой взгляд, тоже не очень хорошо) или до хакатонов готовят какие-то бейзлайны (что говорит о высоком уровне понимания организаторов), подтверждающие возможность решить задачу и задающие метрику, которую нужно побить.

История пятая: Информацию опубликуем чуть позже…

Суть проблемы: Нет информации о призовых, или она очень размыта. Нет положения, правил и тд.

5 историй с хакатонов

Довольно часто положение или отдельные его пункты публикуют в момент открытия хакатона или за несколько часов до. Иногда информация о призах появляется во время хакатона. Однажды информацию о призовых деньгах сообщили в момент награждения (что их не будет, будет только грант на вычислительные ресурсы). Здесь стоит понимать все риски и принимать взвешенное решение, но у хороших хакатонов положение публикуют заранее и не меняют его после публикации (или хотя бы после начала хакатона).

Можно сказать, что если такое встречается на понятных площадках и у опытных организаторов, то сюрпризов ждать не стоит, но в других случаях для вас может стать неожиданностью, что все права на разработку принадлежат организаторам хакатона (ладно, если только у победителей и в обмен на призовые) или запрет на участие несовершеннолетних, или запрет на использование коммерческого ПО или даже open-source не с MIT лицензией и тд.

Достойны упоминания следующие проблемы

- Мы, конечно, видим критерии и согласны, что вы должны занять первое место, но больше хотим, чтобы победили эти ребята.

Совет: смириться и подавать апелляции

- У нас крутой хакатон! Даже кэгл используем! Настоящее соревнование по анализу данных и машинному обучению! Приватный лидерборд? Не слышали.

Совет: переобучайтесь под публичный лидерборд, пилите крутую презентацию (универсальный совет), потому что качество у всех будет +- одинаковое

- Вопросы задавать нельзя/доступа до экспертов нет/чекпоинтов не будет/все написано в задании, ждем результат через 2 дня!

Совет: бегите

- Приходит команда, которая несколько лет делает проект по теме хакатона, презентует его и побеждает, ничего не делая на хакатоне.

Совет: читайте правила, делайте так же, если правила позволяют, бегите

- Мы тут правила немного поменяли… Ну и что, что хакатон уже идет?

Совет: смириться (или бежать)

В завершении стоит отметить, что это далеко не все проблемы с которыми вы можете столкнуться. Я точно заметил, что со временем проблем стало меньше, а организаторы стали опытнее. Да и вообще не все страдают от перечисленных "проблем", ведь для кого-то, кто понимает как воспользоваться ситуацией, это отличная возможность попасть в призы не с лучшим решением. На мой взгляд эти "проблемы" снижают прозрачность процессов и прогнозируемость результатов. Кстати, с классической разработкой все немного попроще, а вот с анализом данных и машинным обучением посложнее – поэтому часто дата сайентистам проще и полезнее участвовать в проверенных соревнованиях от опытных компаний или в соревнованиях на кэгле.

11
Начать дискуссию