ElevenLabs выпустил модель расшифровки речи с задержкой менее 150 мс

Scribe v2 Realtime предназначена для голосовых ассистентов. Модель предсказывает следующее слово собеседника, поэтому работает так быстро. Точность — 93.5% на 30 популярных языках.

Поддерживает более 90 языков, включая русский.

Попробовать можно тут: https://elevenlabs.io/realtime-speech-to-text

Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.

Начать дискуссию