Alibaba представила модель для распознавания речи Qwen3-ASR с поддержкой русского языка

Есть бесплатная демоверсия и API.

Сравнение результатов Qwen3-ASR с другими моделями. Источник: Qwen
Сравнение результатов Qwen3-ASR с другими моделями. Источник: Qwen
  • Qwen3-ASR может расшифровывать речь, песни, в том числе рэп, а также низкокачественные записи с фоновым шумом. Коэффициент ошибок в таких случаях меньше 8%, заявляет компания.
  • Модель поддерживает 11 языков, включая русский, английский, китайский, арабский, испанский и корейский. Ей можно задать список ключевых слов, имён и названий, чтобы она записывала их верно.
  • Бесплатные демоверсии выложили на HuggingFace и ModelScope. Также модель добавили в API для разработчиков и бизнеса. Работа с Qwen3-ASR стоит $0,000032 за секунду аудио (0,3 копейки по курсу ЦБ на 10 сентября 2025 года).
10
4
19 комментариев