ClaritySpeechbot — Как мы сделали бота для расшифровки голосовых сообщений

Мы — компания Data4. Делаем заказную b2b-разработку в области машинного обучения (персонализированные рекомендации для интернет-магазинов, речевая аналитика для колл-центров и так далее).

Однажды мы чуть не провалили очень дорогой заказ. И в результате сделали бесплатного Telegram-бота для расшифровки голосовых сообщений (да, нас они тоже бесят). Далее расскажем, как так вышло :)

Но сначала дадим ссылку на телеграм-бот:

@ClaritySpeechbot

В него можно надиктовать или переслать голосовое сообщение. Или загрузить любой другой аудиофайл размером до 0,5 мб. Пользуйтесь на здоровье!

Как мы чуть не облажались…

К нам обратилась крупная металлургическая компания. Она перевозит товар Ж/Д транспортом. Во время железнодорожных грузоперевозок сотрудники переговариваются по рации и должны следовать регламенту переговоров (иначе компанию жестоко покарают проверяющие). Для автоматического контроля таких диалогов компания обратилась в Data4.

Мы уже делали много проектов по речевой аналитике. Поэтому решили - ничего сложного! И подписали договор.

А потом послушали аудиозаписи - и ужаснулись. Переговоры по рации оказались очень сильно зашумлены. Почти ничего не разобрать. А то, что удавалось различить, напоминало абракадабру: «три башмака десятый два башмака свободно двенадцать на цепочку вперед…»

Для предыдущих проектов речевой аналитики мы использовали сторонний движок по распознаванию. Когда загрузили в него эти аудиозаписи, ошибка распознавания составила 85% по метрике WER (Word Error Rate). То есть, было корректно распознано только 15% речи! Попробовали загрузить в распознавание Google - и получили ошибку 92%. Штош…

Пришлось выкручиваться… и разработать свой движок по распознаванию речи. Также мы вручную разметили (расшифровали) около 80 часов аудиозаписей клиента и собрали из форумов, статей и т.д. тексты с соответствующей лексикой (объемом с «Война и мир») для обучения лингвистической модели. Теперь почти все «башмаки» и «цепочки» распознавались корректно.

В итоге удалось повысить качество распознавания в три раза (ошибка до 28% по метрике WER), что было достаточным для решения бизнес-кейса.

… но в итоге родился бот

Клиент остался доволен, а у нас на руках остался движок по распознаванию русской речи. Также осталось понимание текущей ситуации: большинство решений на рынке распознают русскую речь довольно плохо. Это касается как общей лексики, так и специализированной.

Мы планируем развивать свой движок дальше и реализовывать коммерческие проекты. Но и что-то полезное для людей тоже хотелось сделать. Так родился бот для расшифровки голосовых сообщений, качество распознавания которого выше, чем у подавляющего большинства аналогов.

Свой интерес здесь тоже есть: все аудиофайлы, которые в бот попадают, обучают и развивают систему распознавания.

Совсем-совсем секретные файлы, наверное, лучше не грузить. Но, в целом, все аудиозаписи в боте обезличены, "растворяются" в наборе данных и защищены от сторонних "ушей". Напоминаем - каждый файл не более 0.5 мб.

Еще раз ссылка на бот - @ClaritySpeechbot

Желаем вам не лажать с клиентами, а если есть угроза косяка - выкручивать ситуацию в свою пользу!