Протестировали все сервисы распознавания речи. Какая ИИ-модель лучше всего подходит для транскрибации?

Всем привет! Меня зовут Сергей. Я CEO и основатель компании BVMAX. Мы занимаемся заказной разработкой и развиваем собственный продукт – Цифровой РОП. Это ИИ-сервис для отделов продаж.

Введу в курс дела. Если коротко, то Цифровой РОП работает так. Сервис подключается к вашей телефонии, расшифровывает звонки и проводит анализ. Оценивает их по разным параметрам и формирует подробную статистику. Поэтому качество распознавания речи – это основа всей дальнейшей аналитики. Без нормальной транскрибации получить адекватную оценку невозможно.

Какая ИИ-модель справится лучше с расшифровкой речи в текст? Решений много, у каждого свои плюсы и минусы. Чтобы разобраться и найти идеальный вариант, мы протестировали все доступные сервисы распознавания речи. В статье – краткий обзор и мои выводы по каждому.

Протестировали все сервисы распознавания речи. Какая ИИ-модель лучше всего подходит для транскрибации?

GigaAM RNNT

GigaAM RNNT — это продукт от всеми знакомого Сбера. Начнем с того, что это модель open source, так что можете спокойно скачивать с интернета. Однако нужно учитывать, что использовать её можно только для личных целей — коммерческое применение запрещено лицензией.

Сложность интеграции: средне
Качество распознавания: среднее

Здесь непростая интеграция. Что-то между Vosk и NVIDIA RNNT по уровню сложности. Не так сложно, как у Nvidia. Но и не так просто, как хотелось бы. Придется повозиться с библиотеками, поэтому на раз-два внедрить не получится.

Качество распознавания неоднозначное. Иногда модель приятно удивляла. Но все же было много ошибок, где дикция спикера была четкой, модель все равно выдавала ошибки.

Итог: тестировать можно, но использовать в работе нет. Даже если закрыть глаза на лицензию, ей далеко до идеала.

Nvidia RNNT

Nvidia RNNT – модель, от которой изначально ожидали большего. Все-таки известный бренд, значит и технические возможности должны быть на высшем уровне. На деле все оказалось намного сложнее.

Сложность интеграции: сложно
Качество распознавания: низкое

Одна из самых сложных интеграций среди всех протестированных моделей. Да, на GitHub есть примеры, как это правильно подключить. Но несмотря на все рекомендации, многое приходится доделывать вручную. Что-то дополнительно скачивать, переделывать и гуглить почему не работает так, как надо. Из плюсов – можно вытянуть максимум информации из аудио, но большинству такой функционал просто не нужен.

Скажу честно, распознавание на нуле. Я протестировал около 20 звонков из разных сфер и результат так себе. Некорректное распознавание даже при четкой дикции. Но тут важно понимать, что и большой модели русского языка здесь нет. Так что возможно, если вы транскрибируете англоязычную речь качество будет совсем иное.

Итог: сложный, но мощный инструмент. Не подойдет для задач, где нужна качественная расшифровка с русского языка.

Salute Speech

Salute Speech – это платное решение от Сбера. И вроде, раз продукт от бигтеха, значит и качество должно быть соответствующее. Чтобы не верить слепо домыслом, мы протестировали Салют на практике.

Сложность интеграции: легко
Качество распознавания: низкое

Здесь надо отдать должное разработчикам. Они создали техническую поддержку, где ты можешь задать любой вопрос в чате Телеграмма. Они быстро ответят на твой вопрос и оперативно помогут решить любую проблему. За это им респект. Поэтому вы сможете легко интегрировать модель от Салюта.

На этом плюсы кончились. Для нас важно качество распознавания, а оно тут ниже плинтуса. Нам пришлось в срочном порядке менять сервис на другой, потому что мы получили тонну негатива от наших клиентов. А некоторые и вовсе отказались использовать наш продукт, жалуясь на кривые расшифровки. Вот и делайте выводы.

Итог: сервис с потенциалом. Салют классно выстраивают коммуникацию с клиентами, это здорово. Но для бизнес-задач точно не подходит. По крайней мере для расшифровки звонков. Возможно, подойдет для видеоконференций, но не более.

Vosk

Еще одна модель, доступна в двух вариантах: Vosk Small и Vosk Big. В нашем случае мы сразу использовали большую модель, чтобы получить максимальное качество.

Сложность интеграции: легко
Качество распознавания: среднее

Простая интеграция. Более того, на их сайте сразу же указано, какие библиотеки тебе нужно скачать в зависимости от выбранной модели. Поддерживает разные языки, включая русский и английский.

И вроде бы все ничего, но есть нюансы. Качество не самое лучшее. Объясню почему. Модель проваливается на иностранных словах и англицизмах. Например, оператор говорит о том, что направит информацию на WhatsApp. Слово вотсап Vosk просто не переваривает и начинает некорректно интерпретировать. Да, это русская модель. Но для бизнес-диалогов такие промахи критичны.

Итог: Хороший выбор, если ваша работа не зависит от качества распознавания. Он хорошо подойдет для других целей. Однако в нашем случае, где важно качество расшифровки каждого слова – Vosk мимо кассы.

Whisper

Одна из самых известных моделей. Разработчики те же, что и у ChatGPT – OpenAI. Одна из лучших моделей распознавания текста. Модель доступна в нескольких версиях (Small, Medium, Large), каждая из которых подходит под разные задачи.

Сложность интеграции: легко
Качество распознавания: высокое (но не стабильное)

Максимально простая интеграция. Модель можно подключить через Hugging Face – локально или удаленно, с помощью пары строк кода. Все работает стабильно и не требует сложной настройки.

По распознаванию Whisper дает наилучшие результаты, особенно в версии Large. Но есть нюанс: когда качество аудио плохое, Виспер может вернуть ответ в виде повторяющихся фраз (например: «добрый, добрый, добрый…»). Так получается, потому что распознавание происходит на базе ИИ и иногда он додумывает то, чего не было в диалоге.

Версии Small и Medium идеально подойдут, если вам нужно расшифровать созвон, где априори качество звука намного лучше, чем в звонках. Из минусов – здесь нет разделения на спикеров. Да и в принципе его нет нигде, кроме Nvidia. Для такой задачи понадобится еще одна внешняя библиотека.

Итог: лучшее решение по качеству. Простая интеграция и быстрые настройки. Но на плохом качестве аудио может поплыть.

Speech2Text

Мы подобрались к моему фавориту. Именно эту модель мы используем прямо сейчас в своем продукте. Я реально считаю, что это лучшее решение на Российском рынке.

Сложность интеграции: легко
Качество распознавания: высокое

Супер простая интеграция, которая реализуется через API. Подключаешь ключ, настраиваешь нужные параметры и все готово к использованию. Также, как и в Салют здесь оперативная поддержка. Разработчики отвечают на все вопросы и учитывают пожелания.

Речь распознается точно. А еще здесь есть разделение на спикеров. Не всегда идеально, но все же. Цены при этом адекватные – ниже, чем у Salute Speech.

Итог: качественный и локальный продукт. Наши клиенты увидели хорошее качество транскрипции и стали оставаться с нами – продлевать подписку.

Кажется, я рассказал о всех доступных моделях на российском рынке. Если бы кто-то написал такую статью раньше – мы бы сэкономили месяцы тестов, нервов и денег.

Остались вопросы? Свяжитесь со мной — подскажу, что лучше подойдет под ваш кейс.

Больше полезных материалов можно найти в нашем Telegram-канале. Там мы рассказываем про ИИ-технологии для бизнеса. Как они помогают автоматизировать процессы и увеличить выручку.

2
1
5 комментариев