Mistral выпустила открытые модели для распознавания речи - Voxtral 3B и Voxtral 24B.
Они обходят Whisper large-v3, который долгое время считался эталоном среди open-source решений, а также превосходят GPT-4o mini Transcribe и Gemini 2.5 Flash по всем ключевым задачам.
Voxtral показывает state-of-the-art результаты на английском (особенно на коротких аудио), а также на мульти-язычных тестах Mozilla Common Voice, обгоняя даже ElevenLabs Scribe.
Возможности Voxtral:
• Длинный контекст: до 32k токенов - это примерно 30 минут аудио на транскрипцию или 40 минут для анализа содержания.
• Встроенные Q&A и резюмирование: можно задавать вопросы по аудиофайлу или получать структурированные сводки.
• Работает на самых популярных языках мира (английский, испанский, французский и др.).
• Вызов функций/интеграция: Модель умеет сразу по голосу вызывать нужные backend-функции, запускать рабочие процессы или API - без дополнительного парсинга
Попробовать Voxtral можно уже сейчас: через API, веб-чат или скачать на Hugging Face
Подписывайтесь на Telegram Сергей Булаев AI 🤖.