Как распознавать речь в ноябре-декабре 2025 года?

Вы будете удивлены, но в лидеры для русского языка вышла модель от Сбера.

Как распознавать речь в ноябре-декабре 2025 года?

Спойлер - лучшим решением сегодня является локальная установка GigaAM v3 для русских задач и NVIDIA Canary 1B v2 для мультиязычных.
А теперь подробнее.

Введение: Смена парадигм в обработке речи в конце 2025 года

Индустрия автоматического распознавания речи (ASR) к концу 2025 года достигла точки технологической сингулярности, характеризующейся одновременным выходом нескольких фундаментальных архитектур, радикально меняющих представление о качестве, скорости и доступности речевых технологий. Период с августа по ноябрь 2025 года стал, без преувеличения, самым насыщенным на релизы за последнее десятилетие, ознаменовав окончательный переход от монолитных архитектур прошлого к гибридным и специализированным моделям нового поколения.

Для русскоязычного сегмента этот временной отрезок имеет особое, стратегическое значение. Если ранее глобальные модели, такие как Whisper от OpenAI, считались де-факто стандартом для всех языков, то последние четыре месяца продемонстрировали резкий качественный скачок локальных разработок, ориентированных на специфику кириллического домена. Появление таких решений, как Sber GigaAM v3, и обновлений от Yandex SpeechKit, создало ситуацию, когда использование глобальных моделей для обработки русской речи перестает быть оптимальным выбором ни с точки зрения качества, ни с точки зрения экономической эффективности.

Текущий ландшафт речевых технологий формируется под воздействием нескольких векторов давления.

Во-первых, это аппаратная гонка: доступность высокопроизводительных потребительских видеокарт (уровня NVIDIA RTX 4090) с большим объемом видеопамяти позволила запускать локально модели, которые ранее требовали кластерных вычислений.

Во-вторых, это архитектурная эволюция: интеграция больших языковых моделей (LLM) в пайплайны распознавания речи (как это сделано в Meta Omnilingual ASR и последних версиях GigaAM) позволяет системам не просто транскрибировать звук, но и понимать контекст, исправляя омофоны и восстанавливая пунктуацию на основе семантики, а не только акустики.

В-третьих, это экономическая оптимизация: новые API предлагают сложные схемы тарификации, где стоимость зависит не только от длительности аудио, но и от количества токенов, что требует глубокого переосмысления бизнес-моделей внедрения.

От Трансформеров к FastConformer

Долгое время доминирующей архитектурой в NLP и ASR оставался Transformer. Однако классический механизм внимания (self-attention) имеет квадратичную сложность от длины последовательности, что делает обработку длинных аудиозаписей ресурсоемкой. В моделях конца 2025 года, таких как NVIDIA Canary 1B v2 и GigaAM v3, стандартом стала архитектура Conformer (Convolution-augmented Transformer) и ее улучшенная версия FastConformer.

Conformer объединяет в себе способность трансформеров захватывать глобальные зависимости (длинный контекст) с эффективностью сверточных нейронных сетей (CNN) в извлечении локальных признаков. Речь обладает сильной локальной корреляцией: фонемы, составляющие слова, расположены рядом во времени. Свертки идеально подходят для их обработки, в то время как механизм внимания связывает слова в предложения. FastConformer идет еще дальше, оптимизируя процесс субсемплинга (уменьшения размерности временного ряда) на ранних слоях энкодера. Это позволяет сократить количество вычислений в 8-10 раз по сравнению с классическими трансформерами, что критически важно для локального запуска на видеокартах с ограниченным теплопакетом.

Интеграция LLM-декодеров

Другим важнейшим трендом стало использование мощных языковых моделей в качестве декодеров. Традиционные ASR-системы часто выдают фонетически верные, но семантически бессмысленные фразы. Новые модели, такие как Meta Omnilingual ASR, используют декодеры, обученные на гигантских текстовых корпусах. Это позволяет модели "догадываться" о правильном слове в условиях сильного шума, опираясь на вероятностную модель языка. Это особенно актуально для русского языка с его богатой морфологией и свободным порядком слов, где контекст играет решающую роль в снятии омонимии.

End-to-End (E2E) подходы

Классические системы требовали отдельных модулей для акустической модели, языковой модели и нормализатора текста (расстановки знаков препинания). Современные модели класса E2E (например, GigaAM-v3-e2e) обучаются выдавать сразу финальный, отформатированный текст. Это упрощает пайплайн развертывания, но предъявляет повышенные требования к качеству обучающих данных, так как нейросеть должна выучить не только акустику, но и грамматику.

Локальные модели для высокопроизводительных GPU (Local Inference)

Развертывание моделей на собственном оборудовании (On-Premise) предоставляет беспрецедентный контроль над данными, отсутствие задержек сети и независимость от тарифной политики облачных провайдеров. Для владельцев "крутых видеокарт" (класса NVIDIA RTX 3090, 4090, RTX 6000 Ada или серверных A100/H100) конец 2025 года открывает доступ к моделям, ранее доступным только исследовательским лабораториям.

Sber GigaAM v3: Новый стандарт для русского языка

Дата релиза: Ноябрь 2025 года.

Безусловным лидером в сегменте распознавания русского языка на текущий момент является модель GigaAM v3, разработанная командой Salute AI (Сбер). Выход этой модели в ноябре 2025 года стал кульминацией многолетних исследований в области самообучения (Self-Supervised Learning) на кириллических данных.

Архитектура и методология обучения

GigaAM v3 построена на базе архитектуры Conformer и насчитывает около 220–240 миллионов параметров. На первый взгляд, это кажется скромным по сравнению с миллиардными моделями конкурентов, однако эффективность использования параметров здесь доведена до абсолюта. Секрет успеха кроется в данных: модель была предобучена на 700 000 часов русской речи.

Для сравнения, стандартные датасеты, на которых учатся глобальные модели, содержат на порядки меньше русского материала. Более того, GigaAM v3 использовала метод обучения HuBERT-CTC. HuBERT (Hidden-Unit BERT) позволяет модели учиться на неразмеченных аудиоданных, предсказывая скрытые кластеры признаков, что существенно повышает устойчивость к шумам и акцентам. Затем энкодер дообучался с использованием CTC (Connectionist Temporal Classification) и RNN-T (Recurrent Neural Network Transducer) декодеров.

Специализация на сложных доменах

Одной из главных проблем ASR является падение качества в реальных условиях ("in-the-wild"). Разработчики GigaAM v3 целенаправленно включили в обучающую выборку сложные домены:

  • Call-центры: Записи с частотой 8 кГц, телефонными помехами и перебиванием собеседников.
  • Фоновая музыка: Речь поверх музыки (радиоэфиры, подкасты).
  • Спонтанная речь: Голосовые сообщения в мессенджерах, сбивчивая речь, слова-паразиты.
  • Девиантная речь: Речь людей с дефектами дикции или сильным акцентом.

В результате, модель демонстрирует снижение показателя WER (Word Error Rate) на 30% по сравнению с предыдущей версией v2 именно на этих сложных доменах.

Сравнение с Whisper Large v3

Наиболее показательным является прямое сравнение (Side-by-Side) с глобальным лидером — OpenAI Whisper Large v3. В тестах, проведенных с использованием LLM в качестве независимого судьи, а также на стандартных метриках, GigaAM v3 показала следующие результаты на русском языке:

  • Общее превосходство: GigaAM выигрывает у Whisper Large v3 в соотношении 70 к 30 случаев.
  • Golos Farfield (дальнее поле, шум): WER GigaAM v3 составляет 4.5%, в то время как Whisper Large v3 показывает 16.7%. Это почти четырехкратная разница в пользу российской модели.
  • Disordered Speech (речь с нарушениями): GigaAM v3 — 20.6%, Whisper — 59.3%. Глобальная модель практически не справляется с нестандартной дикцией, тогда как GigaAM сохраняет приемлемое качество.

Системные требования и производительность

Модель выпускается в нескольких вариантах, включая GigaAM-v3-e2e-ctc и GigaAM-v3-e2e-rnnt. Благодаря компактному размеру (~0.24 млрд параметров), она чрезвычайно "легкая" для современных GPU.

  • VRAM: Для инференса достаточно 4-6 ГБ видеопамяти. На карте с 24 ГБ (RTX 3090/4090) можно запускать множество параллельных потоков, достигая огромной пропускной способности.
  • ONNX: Доступна версия, конвертированная в формат ONNX, что позволяет запускать модель даже на CPU с высокой скоростью, хотя GPU по-прежнему рекомендуется для продакшн-нагрузок.8

NVIDIA Canary 1B v2: Мультиязычный универсал

Обновление: Октябрь 2025 года.

Если GigaAM v3 является узкоспециализированным инструментом для русского языка, то NVIDIA Canary 1B v2 представляет собой вершину универсальных инженерных решений. Эта модель с 1 миллиардом параметров, входящая в семейство NeMo, занимает лидирующие позиции в открытом лидерборде Hugging Face Open ASR.

Технология FastConformer и датасет Granary

Canary 1B v2 построена на архитектуре FastConformer, что делает ее одной из самых быстрых моделей в своем классе. Обучение проводилось на закрытом датасете NVIDIA Granary, а также на публичных наборах данных. Особенностью модели является поддержка 25 европейских языков, включая русский, с возможностью перекрестного перевода (Speech-to-Text Translation).

Качество транскрипции и таймстампов

Для задач, требующих не только текста, но и точной временной привязки (например, создание субтитров), Canary 1B v2 часто превосходит конкурентов.

  • NeMo Forced Aligner: В модель интегрирован механизм принудительного выравнивания, обеспечивающий таймстампы на уровне сегментов с высокой точностью.
  • Пунктуация: Модель автоматически расставляет знаки препинания и капитализацию, что критически важно для читаемости текста. В тестах на русском языке модель показывает WER, сопоставимый с Whisper Large v3 на чистой речи, но выигрывает в скорости обработки.

Управление памятью и проблемы длинных файлов

Несмотря на эффективность, пользователи сталкиваются с проблемами управления памятью (VRAM) при обработке длинных аудиофайлов. Ошибки "CUDA out of memory" могут возникать даже на мощных картах, если не использовать правильные стратегии чанкинга (разбиения аудио на фрагменты).

  • Динамический чанкинг: Для стабильной работы на длинных файлах (более 30 минут) необходимо использовать механизм динамического чанкинга с перекрытием (обычно 1 секунда). Это позволяет обрабатывать файлы бесконечной длины, удерживая потребление памяти в пределах 8-12 ГБ VRAM.1 Без этого механизма модель пытается загрузить весь контекст в память, что приводит к сбоям.

Meta Omnilingual ASR 7B: Гигант с безграничным кругозором

Дата релиза: 10 ноября 2025 года.

Самым масштабным релизом конца года стала модель Omnilingual ASR от Meta (FAIR). Это модель с 7 миллиардами параметров, обученная на данных более чем 1600 языков.

Zero-shot Generalization и LLM-декодер

В основе Omnilingual ASR лежит масштабированный энкодер wav2vec 2.0 и декодер на базе архитектуры больших языковых моделей (LLM). Такой подход позволяет модели демонстрировать феноменальные способности к Zero-shot обучению — работе с языками или диалектами, которые не были широко представлены в обучающей выборке.

  • Для русского языка использование LLM-декодера означает глубокое понимание контекста. Модель способна корректно распознавать редкие термины, имена собственные и сленг, опираясь на свои "знания" о мире, заложенные в языковую модель.

Требования к оборудованию: Вызов для "крутой видеокарты"

Omnilingual ASR 7B — это именно та модель, которая оправдывает покупку карт уровня RTX 4090 (24 ГБ).

  • FP16: В половинной точности веса модели занимают около 14 ГБ VRAM. С учетом памяти под активации и контекст (KV-кэш), для запуска требуется карта с минимум 24 ГБ памяти.
  • Квантование: Использование 4-битного квантования (INT4) позволяет снизить потребление памяти до 6-8 ГБ, делая запуск возможным на картах уровня RTX 4070, однако это может привести к незначительному снижению точности распознавания тонких нюансов речи.

OpenAI Whisper Large v3 Turbo: Оптимизация классики

Дата релиза: Октябрь 2024 года (актуальна на конец 2025).

Несмотря на волну новинок, OpenAI Whisper остается важным игроком. Версия Large v3 Turbo, выпущенная в октябре 2024 года, представляет собой дистиллированную версию оригинальной v3.

  • Разработчики сократили количество слоев в декодере с 32 до 4, сохранив мощный энкодер. Это привело к ускорению инференса в 8 раз при минимальной потере качества на основных языках.18
  • Для русского языка Turbo-версия остается надежной "рабочей лошадкой" для общих задач, хотя и уступает GigaAM v3 в точности на сложных записях. Ее главное преимущество — широчайшая поддержка в экосистеме софта и библиотек.

Qwen2-Audio: Мультимодальный взгляд

Статус: Активное развитие, открытый код.

Qwen2-Audio от Alibaba Cloud — это представитель класса мультимодальных моделей. Она воспринимает аудио не просто как текст для транскрипции, а как информационный поток.

  • Модель может выполнять инструкции типа "Опиши эмоцию говорящего", "Ответь на вопрос, заданный в аудио", "Выдели только голос мужчины".
  • Для чистого ASR русского языка она показывает результаты уровня SotA, но требует более сложного промпт-инжиниринга. Это выбор для тех, кому нужна сложная аналитика аудиоконтента, а не просто текст.

Подписывайтесь чтобы получать свежие новости по ИИ инструментам, я работаю тим лидом в крупном ИИ проекте и непрерывно изучаю новые инструменты.

2
1
1 комментарий