Alibaba представила модель для распознавания речи Qwen3-ASR с поддержкой русского языка

Есть бесплатная демоверсия и API.

Qwen3-ASR может расшифровывать речь, песни, в том числе рэп, а также низкокачественные записи с фоновым шумом. Коэффициент ошибок в таких случаях меньше 8%, заявляет компания.
Модель поддерживает 11 языков, включая русский, английский, китайский, арабский, испанский и корейский. Ей можно задать список ключевых слов, имён и названий, чтобы она записывала их верно.
Бесплатные демоверсии выложили на HuggingFace и ModelScope. Также модель добавили в API для разработчиков и бизнеса. Работа с Qwen3-ASR стоит $0,000032 за секунду аудио (0,3 копейки по курсу ЦБ на 10 сентября 2025 года).