Зачем технологической компании участвовать в университетских конкурсах?

<p><i> The Diamond, учебный корпус ижененрного факультета Университета Шеффилда, одного из организаторов научного конкурса CHiME-6</i></p>

Сотрудники нашего R&D участвуют в нескольких технологических конкурсах ежегодно — и часто занимают призовые места. Весной команда учёных из группы компаний ЦРТ создала лучший алгоритм на международном конкурсе по диаризации и распознаванию речи CHiME-6. По случаю победы решили рассказать, кто и зачем проводит такие челленджи, за что наши учёные так их любят и чем участие в них полезно для компании.

Технологические конкурсы — мощный инструмент продвижения технологий, настоящий ускоритель прогресса. Их особенность (и отличие, например, от олимпиад по программированию) в нацеленности на решение сложной практической задачи. Идея в том, чтобы за задачу разом взялись N сильных научных команд, не ограниченных (как правило) в выборе подходов, а зачастую и технологий, представили свои лучшие наработки — а потом поделились рецептом. Получается такой командный мозговой штурм, где компетенции участников усилены здоровой научно-технологической конкуренцией.

ЦРТ работает в нескольких направлениях в области искусственного интеллекта. Биометрические системы для Safe и Smart City, дистанционное обслуживание, виртуальные ассистенты — уже повседневная реальность, поэтому в сфере наших профессиональных интересов задач меньше не становится. И вызовы по всем направлениям всё серьезнее.

Например, участникам упомянутого CHiME Speech Separation and Recognition Challenge каждый год предлагаются всё более сложные кейсы в области распознавания речи. Если в 2011 году нужно было научить алгоритмы распознавать голосовые команды в фоновом шуме гостиной, то в 2020 требовалось не только перевести в текст естественную диалоговую речь, но и разделить аудиодорожки разных спикеров, часто говорящих одновременно.

В разных технологических областях есть как флагманские компании, так и флагманские университеты — не обязательно самые большие. Это не МИТ, который «отвечает» за все IT на свете, а университеты (а чаще отдельные факультеты или лаборатории), двигающие какой-то специфический набор технологий. Вокруг таких центров формируется научное сообщество — а сообществу нужны площадки для коммуникации и сотрудничества. Поэтому важная часть (и ключевой показатель) работы таких институтов — научные конференции и конкурсы.

Провести мероприятие вроде CHiME — огромный труд. Занимается им зачастую международная команда из сотрудников разных научных центров. Кроме того чтобы разработать задание и метрики, общаться с участниками, принимать результаты и вести лидерборды, нужно предварительно собрать и разметить базы данных, на которых будут обучаться и соревноваться алгоритмы.

Для CHiME организаторы сделали аудиозаписи 20 ужинов в домах добровольцев. Люди готовили еду, общались, смеялись, мыли посуду и т. д. Потом записи нужно было нарезать на нужные сегменты, расшифровать (что и человеку не так просто из-за фоновых шумов и наложения речи), «упаковать», написать дополнительное ПО для участников и т. д.

Но если конкурсы проводят, значит это кому-нибудь нужно. Кроме технологического прорыва и бонусов за вклад в развитие мирового научного сообщества организаторы получают большое поле для исследований — на собранных данных можно проводить эксперименты и писать научные статьи. По результатам участия можно защитить кандидатскую: для таких работ необходимо достижение значимого практического результата, а конкурс даёт возможность его получить. Ещё по итогам каждого конкурса проводится конференция или как минимум воркшоп — бонусы за сообщество удваиваются. А если привлечь большие компании в качестве спонсоров, всё это обойдется дешевле.

Среди участников CHiME-6 больше 10 институтов и университетов и всего 5 коммерческих компаний. Зачем мы соревнуемся с университетскими командами?

<i>График результатов потока распознавания несегментированной речи CHiME-6</i> Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fchimechallenge.github.io%2Fchime6%2Fresults.html&postId=142825" rel="nofollow noreferrer noopener" target="_blank">https://chimechallenge.github.io/chime6/results.html</a>

На графике с результатами видно не только, что большинство участников — университеты, но и серьезный отрыв команды группы компаний ЦРТ (1 место) в задаче распознавания несегментированной речи. Столбцы показывают долю неправильно распознанных слов (WER): у ЦРТ 44,5% против 68,3% у второго места. Подробнее о конкурсе и результатах можно почитать здесь.

Для ЦРТ участие в конкурсе — это в первую очередь способ развития технологий. Если правильно подобрать конкурс, за счёт участия можно сильно сократить сроки внутреннего проекта по созданию или улучшению продукта. Поэтому мы как правило идём соревноваться в решении тех задач, над которыми уже работаем внутри.

В таком случае, даже если мы не выиграли, мы все равно движемся вперед, а полученный датасет можно будет использовать не один год.

Первая попытка ЦРТ принять участие в конкурсе по голосовой биометрии Национального института стандартов и технологий США (NIST) состоялась в 2010 году. Тогда мы не только создали одну из лучших в мире технологий идентификации диктора, которая стала ядром нового продукта, но и реалистично оценили свою позицию на рынке. Например, поняли, что подходы к решению задачи, что мы считали рискованными, уже стали мейнстримом, и «так можно».
Кроме того, посмотрев, как работают коллеги, мы стали по-другому относиться к данным. Компания стала гораздо больше вкладывать в базы — как в самостоятельный сбор, так и в покупку датасетов, — и внимательнее присматриваться к конкурсам.

Технологии обработки несегментированной речи, которые мы «прокачивали» на CHiME, помогут качественнее распознавать спонтанную естественную речь (не диктовку) в ситуациях, когда говорят сразу несколько дикторов, а также справляться с распознаванием речи, перебиваемой шумами. Мы используем это для улучшения работы виртуальных ассистентов, систем протоколирования совещаний и систем аналитики и контроля качества в контактных центрах.

Например, используя распознавание речи в сочетании с технологиями речевой аналитики, мы можем максимально точно расшифровать разговоры операторов контактного центра с клиентами и узнать, соблюдают ли специалисты стандарты обслуживания, по каким вопросам клиенты звонят чаще всего, какие темы вызывают у сотрудников затруднения, понять, пользуются ли клиенты онлайн-сервисами, — или выявить лучшие техники продаж у телемаркетинга.

Серьёзный конкурс — это отдельный проект. Над решением для CHiME работало 12 сотрудников направления распознавания речи, помогали коллеги из биометрии. Помимо разработки решения команда должна общаться с организаторами, договариваться о привлечении коллег из других направлений и писать документацию, готовить статьи.

Дедлайны жёсткие, значит нужно организовать загрузку решения вовремя. Обучение моделей требует много времени и вычислительных ресурсов, группе инфраструктуры приходится обеспечивать доступ к серверам и возможность мгновенно наращивать мощность, если становится понятно, что не успеваем. А руководители проектов следят, чтобы при этом не встала работа по другим направлениям. Так что развивается не только искусственный интеллект.

Мы любим челленджи, потому что часто побеждаем (шутка). Мы их любим, потому что для компаний среднего размера призовое место в конкурсе — это ещё и шанс подтвердить свою экспертизу на мировом уровне и добавить весомую строчку в портфолио (если организаторы не наложат вето на пиар!)

Большие компании тоже заинтересованы в развитии технологий, поэтому спонсируют мероприятия научного сообщества и проводят внутренние контесты в своих R&D. Потому что могут себе позволить. Да и внезапный проигрыш условной публичной IBM маленькому индийскому стартапу на внешнем конкурсе может обвалить акции сильнее, чем неосторожный твит топ-менеджера.

Зачастую гиганты открывают свои лаборатории при университетах, которые и участвуют в конкурсах (например, в CHiME-6 участвовали Toshiba Cambridge Research Laboratory и несколько университетов в соавторстве с корпорациями). Кстати, у ЦРТ тоже есть корпоративная магистерская программа в Университете ИТМО, и некоторые наши сотрудники из конкурсной команды также участся или преподают там. (Поэтому в результатах и стоит STC-ITMO).

Конкурсы — это непросто. Гонки за дедлайнами, сложные задачи, месяцы работы в режиме сверхусилий: на создание конкурсного алгоритма для CHiME в этом году ушло три месяца или неколько тысяч человекочасов, не всегда укладывающихся в рабочий график. После такого команде ещё какое-то время придется восстанавливаться, попутно систематизируя результаты и дописывая статьи.

Но возможность решить заковыристый кейс, объективно сравнить свое решение с конкурентами, получить качественный материал для работы, внести вклад в мировую науку и совершить технологический прорыв — а ещё и рассказать об этом всему миру дорогого стоит. Да и включение в сообщество интересно не только сотрудникам университетов. В конце концов это весело! А клиенты ЦРТ в самых разных отраслях каждый день пользуются конкурсными наработками — и с каждым новым челленджем наши продукты и сервисы становятся лучше.

В общем, если у вас технологическая компания и вы еще не участвуете в конкурсах, может, пора начать?

Примечания

Диаризация — процесс разделения речи разных дикторов в аудиопотоке. Если распознавание речи отвечает на вопрос «Что говорится?», то диаризация — «Кто сейчас говорит?» Наверх

Основная часть команды CHiME представляет Университет Шеффилда (Великобритания), Университет Джона Хопкинса (США), Государственный институт исследований в информатике и автоматике (Франция), Городской Университет Нью-Йорка (США). Наверх

Когда клиент предупрежден, что «в целях повышения качества обслуживания все разговоры записываются». Наверх

Зачем технологической компании участвовать в университетских конкурсах?

Зачем учёным конкурсы?

Зачем конкурсы нам?

А где Google и Microsoft?

Итого: стоит того