Зачем технологической компании участвовать в университетских конкурсах?

<p><i> The Diamond, учебный корпус ижененрного факультета Университета Шеффилда, одного из организаторов научного конкурса CHiME-6</i></p>

The Diamond, учебный корпус ижененрного факультета Университета Шеффилда, одного из организаторов научного конкурса CHiME-6

Сотрудники нашего R&D участвуют в нескольких технологических конкурсах ежегодно — и часто занимают призовые места. Весной команда учёных из группы компаний ЦРТ создала лучший алгоритм на международном конкурсе по диаризации и распознаванию речи CHiME-6. По случаю победы решили рассказать, кто и зачем проводит такие челленджи, за что наши учёные так их любят и чем участие в них полезно для компании.

Технологические конкурсы — мощный инструмент продвижения технологий, настоящий ускоритель прогресса. Их особенность (и отличие, например, от олимпиад по программированию) в нацеленности на решение сложной практической задачи. Идея в том, чтобы за задачу разом взялись N сильных научных команд, не ограниченных (как правило) в выборе подходов, а зачастую и технологий, представили свои лучшие наработки — а потом поделились рецептом. Получается такой командный мозговой штурм, где компетенции участников усилены здоровой научно-технологической конкуренцией.

ЦРТ работает в нескольких направлениях в области искусственного интеллекта. Биометрические системы для Safe и Smart City, дистанционное обслуживание, виртуальные ассистенты — уже повседневная реальность, поэтому в сфере наших профессиональных интересов задач меньше не становится. И вызовы по всем направлениям всё серьезнее.

Например, участникам упомянутого CHiME Speech Separation and Recognition Challenge каждый год предлагаются всё более сложные кейсы в области распознавания речи. Если в 2011 году нужно было научить алгоритмы распознавать голосовые команды в фоновом шуме гостиной, то в 2020 требовалось не только перевести в текст естественную диалоговую речь, но и разделить аудиодорожки разных спикеров, часто говорящих одновременно.

Зачем учёным конкурсы?

В разных технологических областях есть как флагманские компании, так и флагманские университеты — не обязательно самые большие. Это не МИТ, который «отвечает» за все IT на свете, а университеты (а чаще отдельные факультеты или лаборатории), двигающие какой-то специфический набор технологий. Вокруг таких центров формируется научное сообщество — а сообществу нужны площадки для коммуникации и сотрудничества. Поэтому важная часть (и ключевой показатель) работы таких институтов — научные конференции и конкурсы.

Провести мероприятие вроде CHiME — огромный труд. Занимается им зачастую международная команда из сотрудников разных научных центров. Кроме того чтобы разработать задание и метрики, общаться с участниками, принимать результаты и вести лидерборды, нужно предварительно собрать и разметить базы данных, на которых будут обучаться и соревноваться алгоритмы.

Для CHiME организаторы сделали аудиозаписи 20 ужинов в домах добровольцев. Люди готовили еду, общались, смеялись, мыли посуду и т. д. Потом записи нужно было нарезать на нужные сегменты, расшифровать (что и человеку не так просто из-за фоновых шумов и наложения речи), «упаковать», написать дополнительное ПО для участников и т. д.

Но если конкурсы проводят, значит это кому-нибудь нужно. Кроме технологического прорыва и бонусов за вклад в развитие мирового научного сообщества организаторы получают большое поле для исследований — на собранных данных можно проводить эксперименты и писать научные статьи. По результатам участия можно защитить кандидатскую: для таких работ необходимо достижение значимого практического результата, а конкурс даёт возможность его получить. Ещё по итогам каждого конкурса проводится конференция или как минимум воркшоп — бонусы за сообщество удваиваются. А если привлечь большие компании в качестве спонсоров, всё это обойдется дешевле.

Зачем конкурсы нам?

Среди участников CHiME-6 больше 10 институтов и университетов и всего 5 коммерческих компаний. Зачем мы соревнуемся с университетскими командами?

<i>График результатов потока распознавания несегментированной речи CHiME-6</i> Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fchimechallenge.github.io%2Fchime6%2Fresults.html&postId=142825" rel="nofollow noreferrer noopener" target="_blank">https://chimechallenge.github.io/chime6/results.html</a>
График результатов потока распознавания несегментированной речи CHiME-6 Источник: https://chimechallenge.github.io/chime6/results.html

На графике с результатами видно не только, что большинство участников — университеты, но и серьезный отрыв команды группы компаний ЦРТ (1 место) в задаче распознавания несегментированной речи. Столбцы показывают долю неправильно распознанных слов (WER): у ЦРТ 44,5% против 68,3% у второго места. Подробнее о конкурсе и результатах можно почитать здесь.

Для ЦРТ участие в конкурсе — это в первую очередь способ развития технологий. Если правильно подобрать конкурс, за счёт участия можно сильно сократить сроки внутреннего проекта по созданию или улучшению продукта. Поэтому мы как правило идём соревноваться в решении тех задач, над которыми уже работаем внутри.

В таком случае, даже если мы не выиграли, мы все равно движемся вперед, а полученный датасет можно будет использовать не один год.

Первая попытка ЦРТ принять участие в конкурсе по голосовой биометрии Национального института стандартов и технологий США (NIST) состоялась в 2010 году. Тогда мы не только создали одну из лучших в мире технологий идентификации диктора, которая стала ядром нового продукта, но и реалистично оценили свою позицию на рынке. Например, поняли, что подходы к решению задачи, что мы считали рискованными, уже стали мейнстримом, и «так можно».

Кроме того, посмотрев, как работают коллеги, мы стали по-другому относиться к данным. Компания стала гораздо больше вкладывать в базы — как в самостоятельный сбор, так и в покупку датасетов, — и внимательнее присматриваться к конкурсам.

Технологии обработки несегментированной речи, которые мы «прокачивали» на CHiME, помогут качественнее распознавать спонтанную естественную речь (не диктовку) в ситуациях, когда говорят сразу несколько дикторов, а также справляться с распознаванием речи, перебиваемой шумами. Мы используем это для улучшения работы виртуальных ассистентов, систем протоколирования совещаний и систем аналитики и контроля качества в контактных центрах.

Например, используя распознавание речи в сочетании с технологиями речевой аналитики, мы можем максимально точно расшифровать разговоры операторов контактного центра с клиентами и узнать, соблюдают ли специалисты стандарты обслуживания, по каким вопросам клиенты звонят чаще всего, какие темы вызывают у сотрудников затруднения, понять, пользуются ли клиенты онлайн-сервисами, — или выявить лучшие техники продаж у телемаркетинга.

Серьёзный конкурс — это отдельный проект. Над решением для CHiME работало 12 сотрудников направления распознавания речи, помогали коллеги из биометрии. Помимо разработки решения команда должна общаться с организаторами, договариваться о привлечении коллег из других направлений и писать документацию, готовить статьи.

Дедлайны жёсткие, значит нужно организовать загрузку решения вовремя. Обучение моделей требует много времени и вычислительных ресурсов, группе инфраструктуры приходится обеспечивать доступ к серверам и возможность мгновенно наращивать мощность, если становится понятно, что не успеваем. А руководители проектов следят, чтобы при этом не встала работа по другим направлениям. Так что развивается не только искусственный интеллект.

А где Google и Microsoft?

Мы любим челленджи, потому что часто побеждаем (шутка). Мы их любим, потому что для компаний среднего размера призовое место в конкурсе — это ещё и шанс подтвердить свою экспертизу на мировом уровне и добавить весомую строчку в портфолио (если организаторы не наложат вето на пиар!)

Большие компании тоже заинтересованы в развитии технологий, поэтому спонсируют мероприятия научного сообщества и проводят внутренние контесты в своих R&D. Потому что могут себе позволить. Да и внезапный проигрыш условной публичной IBM маленькому индийскому стартапу на внешнем конкурсе может обвалить акции сильнее, чем неосторожный твит топ-менеджера.

Зачастую гиганты открывают свои лаборатории при университетах, которые и участвуют в конкурсах (например, в CHiME-6 участвовали Toshiba Cambridge Research Laboratory и несколько университетов в соавторстве с корпорациями). Кстати, у ЦРТ тоже есть корпоративная магистерская программа в Университете ИТМО, и некоторые наши сотрудники из конкурсной команды также участся или преподают там. (Поэтому в результатах и стоит STC-ITMO).

Итого: стоит того

Конкурсы — это непросто. Гонки за дедлайнами, сложные задачи, месяцы работы в режиме сверхусилий: на создание конкурсного алгоритма для CHiME в этом году ушло три месяца или неколько тысяч человекочасов, не всегда укладывающихся в рабочий график. После такого команде ещё какое-то время придется восстанавливаться, попутно систематизируя результаты и дописывая статьи.

Но возможность решить заковыристый кейс, объективно сравнить свое решение с конкурентами, получить качественный материал для работы, внести вклад в мировую науку и совершить технологический прорыв — а ещё и рассказать об этом всему миру дорогого стоит. Да и включение в сообщество интересно не только сотрудникам университетов. В конце концов это весело! А клиенты ЦРТ в самых разных отраслях каждый день пользуются конкурсными наработками — и с каждым новым челленджем наши продукты и сервисы становятся лучше.

В общем, если у вас технологическая компания и вы еще не участвуете в конкурсах, может, пора начать?

Примечания

Диаризация — процесс разделения речи разных дикторов в аудиопотоке. Если распознавание речи отвечает на вопрос «Что говорится?», то диаризация — «Кто сейчас говорит?» Наверх

Основная часть команды CHiME представляет Университет Шеффилда (Великобритания), Университет Джона Хопкинса (США), Государственный институт исследований в информатике и автоматике (Франция), Городской Университет Нью-Йорка (США). Наверх

Когда клиент предупрежден, что «в целях повышения качества обслуживания все разговоры записываются». Наверх

66
1 комментарий

Специалист по диаризации моего детства.