ElevenLabs выпустил модель расшифровки речи с задержкой менее 150 мс
Scribe v2 Realtime предназначена для голосовых ассистентов. Модель предсказывает следующее слово собеседника, поэтому работает так быстро. Точность — 93.5% на 30 популярных языках.
Поддерживает более 90 языков, включая русский.
Попробовать можно тут: https://elevenlabs.io/realtime-speech-to-text
Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.
Начать дискуссию