Почему Whisper — самый слабый продукт OpenAI? Наш опыт с AI-распознаванием речи

Почему Whisper — самый слабый продукт OpenAI? Наш опыт с AI-распознаванием речи

Привет! Меня зовут Сергей, я CEO и основатель компании BVM. Мы занимаемся заказной разработкой, а еще у нас есть свой продукт – внедряем ИИ в отделы продаж

С OpenAI мы работаем давно. Уважаем, ценим и регулярно используем. Когда начали работу над стартапом по анализу звонков, выбор распознавателя речи был очевиден – Whisper от OpenAI. Все в одном апи, да и отзывы супер. Но все оказалось не так радужно, как мы думали.

Сначала все было ок. Полгода продавали наш сервис, все шло по плану. А потом начались жалобы: «Ребята, а что там по качеству распознавания?» И правда, а что там у нас?

Мы даже и не думали, что проблема может быть в Whisper. OpenAI уже себя зарекомендовали, фуфла не сделают. Решили, что проблема в клиентах: то ли вы отправляете аудио звонки в плохом качестве, то ли сами говорите невнятно. И это действительно так. Но не до такой степени, чтобы разговор превращался в набор случайных слов, а не в нормальный диалог.

Whisper, у нас проблемы

Проблемы Whisper, как AI-распознавателя:

1. «Додумывание» текста

AI-распознаватели обучены додумывать слова или фразы, если речь была невнятной и удалось распознать только половину. Кажется, что это даже удобно и необходимо. Но по итогу запись в медицинскую клинику заканчивается тем, что менеджер приглашает пациента в ресторан.

2. Плохо распознает русский язык

Хотя OpenAI постоянно выпускает обновление и увеличивает количество параметров обработки в текст, результат так и не становится лучше. Вот не идет у них с русским языком и все.

3. Обрывы транскрипции

Он просто обрывается на случайном моменте и пишет «Продолжение следует…». Нет, это не шутка, а регулярный баг, который встречается примерно в одном из 20 случаев. И вот менеджер уже позвал клиента в ресторан, а продолжение следует…

4. Потеря фрагментов аудио

Несмотря на рекомендации делать аудио куски по 15-30 секунд (мы так и делаем), Whisper все равно «съедает» части записи и работает по-своему. Переслушивая аудиофайл, мы четко слышали, как была сказана каждая фраза. В нашем случае это привело к некорректным оценкам звонков.

5. Низкая эффективность настроек

Параметры внутри Whisper (temperature, top_k и др.) не сильно помогают улучшить качество распознавания. Мы перепробовали все варианты, но не смогли добиться приемлемых результатов.

6. Определение качества транскрипции

И вот вы скажете: «Ну сделайте доп. запрос и с пятого раза аудио хорошо распознается». Что в вашем понимании «хорошо»? Whisper не предоставляет явных метрик для оценки качества распознавания. А использовать самый длинный транскрипт – ужасная ошибка. Почему? (смотреть пункт 1)

Что сделали мы

После множества попыток настроить все так, чтобы оно работало, мы забили. Решили перейти на SaluteSpeeech от Сбера и вам советуем. Тарификация там, как у OpeanAI и платить можно рублями. Распознавание стало точнее, не жалуемся.

Если вы тоже сталкивались с проблемами в Whisper, расскажите в комментариях. А может у вас получилось его «выдрессировать».

Полезные ссылки

22
Начать дискуссию