Mistral AI представила свою первую аудиомодель с открытым исходным кодом Voxtral

Её можно протестировать в чат-боте Mistral Le Chat или скачать API на Hugging Face.

  • Voxtral анализирует аудиофайлы длительностью до 40 минут, а также расшифровывает аудио до 30 минут, заявляют в Mistral AI. Она понимает английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский языки.
  • Пользователи могут задавать Voxtral вопросы, связанные с загруженными в неё файлами. Кроме того, модель умеет создавать короткие сводки и выполнять голосовые команды.
  • Компания предлагает три версии модели: Voxtral Small с 24 млрд параметров, Voxtral Mini с 3 млрд параметров и Voxtral Mini Transcribe, которая поддерживает только расшифровку аудио.
  • Протестировать Voxtral можно в чат-боте Mistral Le Chat или скачать API на Hugging Face. По словам компании, интеграция API в приложения стоит от $0,001 за минуту аудио.
2
6 комментариев