Пост 2101429 в блоге Сергей Булаев на vc.ru

Mistral выпустила открытые модели для распознавания речи - Voxtral 3B и Voxtral 24B.

Они обходят Whisper large-v3, который долгое время считался эталоном среди open-source решений, а также превосходят GPT-4o mini Transcribe и Gemini 2.5 Flash по всем ключевым задачам.

Voxtral показывает state-of-the-art результаты на английском (особенно на коротких аудио), а также на мульти-язычных тестах Mozilla Common Voice, обгоняя даже ElevenLabs Scribe.

Возможности Voxtral:

• Длинный контекст: до 32k токенов - это примерно 30 минут аудио на транскрипцию или 40 минут для анализа содержания.

• Встроенные Q&A и резюмирование: можно задавать вопросы по аудиофайлу или получать структурированные сводки.

• Работает на самых популярных языках мира (английский, испанский, французский и др.).

• Вызов функций/интеграция: Модель умеет сразу по голосу вызывать нужные backend-функции, запускать рабочие процессы или API - без дополнительного парсинга

Попробовать Voxtral можно уже сейчас: через API, веб-чат или скачать на Hugging Face

Подписывайтесь на Telegram Сергей Булаев AI 🤖.