Как мы в очередной раз победили в хакатоне: делимся советами, как выиграть 250 тысяч рублей

Как мы в очередной раз победили в хакатоне: делимся советами, как выиграть 250 тысяч рублей

Пришли, разработали, победили! 20-22 августа команда Napoleon IT под кодовым названием [CLS][UNK][PAD][PAD] приняла участие во Всероссийском конкурсе «Цифровой прорыв», в хакатоне, посвященному креативным индустриям, коммуникациям и контенту. На протяжении всех выходных ребята трудились над решением кейса от Интерфакса и заняли первое место.

Мы смогли выиграть в этом конкурсе и сейчас научим вас. Ловите краткую инструкцию:

  • Четко осознайте проблематику и суть кейса. Обязательно задавайте вопросы экспертам, прочувствуйте его боли.
  • Не ленитесь делать аналитику. Мы в компании Napoleon IT начинаем работу над любым проектом только изучив всю суть вопроса, конкурентов, процессы, гипотезы, и проводим custdev. В общем, делаем все на начальном этапе, ведь зачастую ответы на вопросы кроются именно там :) Custdev и бизнес-аналитика всегда проводятся, чтобы глубже понять проблему. Иногда заказчик (в нашем случае кейсодерджатель) сам может не понимать, зачем он это делает. Главное – решить настоящие боли, а не те, что сам заказчик говорит.

  • Кроме бизнес-аналитики, важно провести аналитику данных. Один из членов команды сделал первичный анализ данных, построил графики и сделал выводы, которые помогли нам в дальнейшем рассчитать необходимое быстродействие модели и экономику.

  • Сделайте рабочий прототип. На хакатоне мы показали уже готовый рабочий MVP. Экспертам обычно на конкурсе показывают лишь презентацию в течение 5-ти минут. Если они будут заняты вашим прототипом – это к лучшему, меньше обратят внимания на мелкие косяки :)

  • Наше решение не без проблем. Обязательно найдите слабые стороны вашего проекта. Либо предложите решение, либо выставьте его как преимущество. Жюри не любит неуверенных в себе и непонимающих, что они делают людей. Но и обманывать их тоже не стоит, там сидят крутые технические специалисты из топовых компаний.

  • Спланируйте свое время. Запаситесь едой и энергетиками, хорошо выспитесь перед участием в подобных соревнованиях. На выходные мы оккупировали офис, кодили с 9 утра до 4 ночи, сидели на энергетиках. В целом провели 48 часов на хакатоне! Последний коммит мы сделали за 2 минуты до дедлайна, потому что хотелось выдать идеальный результат, хотя понимали, что скорее всего наше решение уже оценили и никто не будет смотреть и пересматривать после дедлайна.

  • Защита проекта. У нас было всего 5 минут на защиту, поэтому мы так ускорили видео с демонстрацией прототипа https://youtu.be/kutReeKUqp4

Как мы в очередной раз победили в хакатоне: делимся советами, как выиграть 250 тысяч рублей

А для особо любознательных мы подробнее рассказываем о конкурсе и расписываем полное решение кейса дальше в статье.

Napoleon IT не первый раз участвует в конкурсе «Цифровой прорыв» и побеждает. Искусственный интеллект, цифровая трансформация, Design, Big Data, Web, Mobile – этим и другим задачам были посвящены кейсы хакатона от 8 компаний и Министерств, которые необходимо было решить в течение 48 часов. По итогам конкурса были определены 24 команды-победителя из 155.

Задача от Интерфакса

[CLS][UNK][PAD][PAD] – команда международного разработчика Napoleon IT выбрала для решения кейс от крупнейшей в России негосударственной информационной группы Интерфакса. Необходимо было разработать программное решение, которое будет в автоматическом режиме генерировать названия для тематических подборок (сюжетов).

Как команда Napoleon IT решила поставленную задачу

Наша главное преимущество будь то работа с клиентами или решение практического кейса – это глубокая экспертиза и комплексный подход. Napoleon IT всегда изучает проблему, проводит аналитику, тестит гипотезы и предлагает наилучшее решение с учетом экономического эффекта.

Проблематика

Главная проблема заключалась в том, что текущая система анализирует большой поток новостей, автоматически рекомендует теги и собирает группы новостей, но при этом нет модуля генерации релевантных заголовков. Если для ее решения подключать группу из людей, которые будут это все обрабатывать вручную, то мы сталкиваемся со следующими сложностями:

  • Нужно большое число человеческих ресурсов
  • Утомительный и ручной труд
  • Низкая скорость работы

Аналитика

Чтобы понять все проблемные места команда провела аналитику сайта Интерфакса и других СМИ, а также custdev для выявление основных болей в потреблении контента, восприятии заголовков и группировки новостей.

Результаты опросов и мониторинга показали, что пользователям важна группировка по событиям. Зачастую они смотрят новости в рабочих целях и читают их полностью.

Как возможный конкурент с похожим функционалом был проанализирован Яндекс Дзен с рекомендательным видом контента, где после анализа каждой публикации присваиваются определенные интересы и можно самостоятельно создать собственную подборку контента.

Решение

Общим решением проблемы стала разработка сервиса генерации заголовков, созданного на основе нейронной сети Bert, куда принимаются группы новостей, а далее к ним формируются автоматические заголовок. Для начала команда обучала эту сеть на десятках тысячей новостей пониманию лексики и контекста новостей. Когда сеть научилась читать новости, ее дообучили на написание заголовков на данных, предоставленных Интерфаксом и содержащих 200 групп новостей с названиями. Для ускорения обучения и генерации заголовков использовались только первые два предложения новостей, т.к. в них содержится смысл новости, а дальше идут детали не нужные для создания заголовка.

Подробнее о решении вы можете узнать из видео.

Как не генерировать фейки?

Основной риск при генерации заголовков при помощи нейросетевой модели – генерация фейковых заголовков.

Для этого были разработаны рекомендации от команды:

  • Дополнительный этап факт-чека ( Проверка нахождения сущностей из заголовков (персон, организаций и т.д) в новости и

    оценка схожести содержания заголовка и новости)

  • Добавление дополнительных данных на обучение, для улучшения знания о предметной области
  • Использование моделей извлекающих часть новости как заголовок

Экономический эффект

Как показывает практика, один из главных аргументов в пользу внедрения IT-технологий, конечно, экономический. Команде необходимо было показать, как внедрение новой технологии может сократить затраты Интерфакса.

При загрузке в час пик приходится 150 новостей на 20 редакторов. При штате в 25 редакторов и средней заработная плате 40 000 р. общий фонд составляет 1 000 000 р. При внедрении системы нагрузка снижается и происходит оптимизация 10 редакторов и экономия в 400 000 р.

Дальнейшее развитие

Но нет предела совершенству :)

Для улучшения сервиса команда Napoleon IT предложила несколько рекомендаций:

  • Улучшение качества генерации
  • Реализация факт-чека

  • Оптимизация скорости работы и размера модели
  • Разработка алгоритмов под различные типы новостей

Заслужили

В итоге наш проект высоко оценил даже Владимир Герасимов, первый заместитель генерального директора, Группа «Интерфакс»: «Вы уже попали в те самые новости, к которым на хакатоне стояла задача автоматически создавать заголовки сюжетов. Задачи такого рода постоянно расширяются: у «Интерфакса уже более 20% новостей пишут алгоритмы. К решению ещё одной задачи — по автоматической генерации заголовков для новостных сюжетов — мы сегодня приблизились вместе с вами. Вы молодцы!»

И, конечно, наш СЕО компании Napoleon IT Павел Подкорытов также оценил работу команды:

Этот сервис может быть использован Интерфаксом для верификации названия статьи и ее содержания. Залог успеха каждого СМИ – это оперативное предоставление актуальной информации в удобном для читателя виде. В Интерфакса все новости и сюжеты собраны в тематические подборки, что позволяет видеть общую новостную картину дня и ориентироваться в информационной повестке. Это экономит время многих читателей.

Павел Подкорытов, СЕО Napoleon IT
1010 показов
225225 открытий
1 комментарий

Обучи нейронку выиграй 250 к, звучит как план) не зря я курс прохожу амозоновский по машин ленингу, скоро тоже будут вот такие призы выигрывать.

Ответить