Мы — компания Data4. Делаем заказную b2b-разработку в области машинного обучения (персонализированные рекомендации для интернет-магазинов, речевая аналитика для колл-центров и так далее). Однажды мы чуть не провалили очень дорогой заказ. И в результате сделали бесплатного Telegram-бота для расшифровки голосовых сообщений (да, нас они тоже бесят). Далее расскажем, как так вышло :) Но сначала дадим ссылку на телеграм-бот: @ClaritySpeechbotВ него можно надиктовать или переслать голосовое сообщение. Или загрузить любой другой аудиофайл размером до 0,5 мб. Пользуйтесь на здоровье!Как мы чуть не облажались… К нам обратилась крупная металлургическая компания. Она перевозит товар Ж/Д транспортом. Во время железнодорожных грузоперевозок сотрудники переговариваются по рации и должны следовать регламенту переговоров (иначе компанию жестоко покарают проверяющие). Для автоматического контроля таких диалогов компания обратилась в Data4. Мы уже делали много проектов по речевой аналитике. Поэтому решили - ничего сложного! И подписали договор. А потом послушали аудиозаписи - и ужаснулись. Переговоры по рации оказались очень сильно зашумлены. Почти ничего не разобрать. А то, что удавалось различить, напоминало абракадабру: «три башмака десятый два башмака свободно двенадцать на цепочку вперед…»Для предыдущих проектов речевой аналитики мы использовали сторонний движок по распознаванию. Когда загрузили в него эти аудиозаписи, ошибка распознавания составила 85% по метрике WER (Word Error Rate). То есть, было корректно распознано только 15% речи! Попробовали загрузить в распознавание Google - и получили ошибку 92%. Штош…Пришлось выкручиваться… и разработать свой движок по распознаванию речи. Также мы вручную разметили (расшифровали) около 80 часов аудиозаписей клиента и собрали из форумов, статей и т.д. тексты с соответствующей лексикой (объемом с «Война и мир») для обучения лингвистической модели. Теперь почти все «башмаки» и «цепочки» распознавались корректно.В итоге удалось повысить качество распознавания в три раза (ошибка до 28% по метрике WER), что было достаточным для решения бизнес-кейса.… но в итоге родился ботКлиент остался доволен, а у нас на руках остался движок по распознаванию русской речи. Также осталось понимание текущей ситуации: большинство решений на рынке распознают русскую речь довольно плохо. Это касается как общей лексики, так и специализированной. Мы планируем развивать свой движок дальше и реализовывать коммерческие проекты. Но и что-то полезное для людей тоже хотелось сделать. Так родился бот для расшифровки голосовых сообщений, качество распознавания которого выше, чем у подавляющего большинства аналогов. Свой интерес здесь тоже есть: все аудиофайлы, которые в бот попадают, обучают и развивают систему распознавания. Совсем-совсем секретные файлы, наверное, лучше не грузить. Но, в целом, все аудиозаписи в боте обезличены, "растворяются" в наборе данных и защищены от сторонних "ушей". Напоминаем - каждый файл не более 0.5 мб. Еще раз ссылка на бот - @ClaritySpeechbotЖелаем вам не лажать с клиентами, а если есть угроза косяка - выкручивать ситуацию в свою пользу!