{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

ClaritySpeechbot — Как мы сделали бота для расшифровки голосовых сообщений

Мы — компания Data4. Делаем заказную b2b-разработку в области машинного обучения (персонализированные рекомендации для интернет-магазинов, речевая аналитика для колл-центров и так далее).

Однажды мы чуть не провалили очень дорогой заказ. И в результате сделали бесплатного Telegram-бота для расшифровки голосовых сообщений (да, нас они тоже бесят). Далее расскажем, как так вышло :)

Но сначала дадим ссылку на телеграм-бот:

@ClaritySpeechbot

В него можно надиктовать или переслать голосовое сообщение. Или загрузить любой другой аудиофайл размером до 0,5 мб. Пользуйтесь на здоровье!

Как мы чуть не облажались…

К нам обратилась крупная металлургическая компания. Она перевозит товар Ж/Д транспортом. Во время железнодорожных грузоперевозок сотрудники переговариваются по рации и должны следовать регламенту переговоров (иначе компанию жестоко покарают проверяющие). Для автоматического контроля таких диалогов компания обратилась в Data4.

Мы уже делали много проектов по речевой аналитике. Поэтому решили - ничего сложного! И подписали договор.

А потом послушали аудиозаписи - и ужаснулись. Переговоры по рации оказались очень сильно зашумлены. Почти ничего не разобрать. А то, что удавалось различить, напоминало абракадабру: «три башмака десятый два башмака свободно двенадцать на цепочку вперед…»

Для предыдущих проектов речевой аналитики мы использовали сторонний движок по распознаванию. Когда загрузили в него эти аудиозаписи, ошибка распознавания составила 85% по метрике WER (Word Error Rate). То есть, было корректно распознано только 15% речи! Попробовали загрузить в распознавание Google - и получили ошибку 92%. Штош…

Пришлось выкручиваться… и разработать свой движок по распознаванию речи. Также мы вручную разметили (расшифровали) около 80 часов аудиозаписей клиента и собрали из форумов, статей и т.д. тексты с соответствующей лексикой (объемом с «Война и мир») для обучения лингвистической модели. Теперь почти все «башмаки» и «цепочки» распознавались корректно.

В итоге удалось повысить качество распознавания в три раза (ошибка до 28% по метрике WER), что было достаточным для решения бизнес-кейса.

… но в итоге родился бот

Клиент остался доволен, а у нас на руках остался движок по распознаванию русской речи. Также осталось понимание текущей ситуации: большинство решений на рынке распознают русскую речь довольно плохо. Это касается как общей лексики, так и специализированной.

Мы планируем развивать свой движок дальше и реализовывать коммерческие проекты. Но и что-то полезное для людей тоже хотелось сделать. Так родился бот для расшифровки голосовых сообщений, качество распознавания которого выше, чем у подавляющего большинства аналогов.

Свой интерес здесь тоже есть: все аудиофайлы, которые в бот попадают, обучают и развивают систему распознавания.

Совсем-совсем секретные файлы, наверное, лучше не грузить. Но, в целом, все аудиозаписи в боте обезличены, "растворяются" в наборе данных и защищены от сторонних "ушей". Напоминаем - каждый файл не более 0.5 мб.

Еще раз ссылка на бот - @ClaritySpeechbot

Желаем вам не лажать с клиентами, а если есть угроза косяка - выкручивать ситуацию в свою пользу!

0
6 комментариев
Написать комментарий...
Nathan Zachary

Ой да было уже...и давно...и без пафоса работает
https://t.me/voicybot

Ответить
Развернуть ветку
Борис Денисов

Проверил, все четко работает. Есть небольшие проблемы с окончаниями. Но для простой расшифровки звуковых файлов бот пойдет.

Сейчас как раз ищу небольшой и стабильный сервис подобный, для бота доставки заказов. Как можно с вами связаться?

Ответить
Развернуть ветку
Amvera Speech
Автор

Борис, связаться можно в любом мессенджере по номеру +7-968-721-37-53 (Кирилл).

Ответить
Развернуть ветку
Борис Денисов

Все информацию сохранил ...

Ответить
Развернуть ветку
borodutch

Лол натив очка

Ответить
Развернуть ветку
Amvera Speech
Автор

Это для удобства, без задней мысли! Так - в самой статье есть ссылка на наш сайт)

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда