SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций

Исходный код открытый, лицензия — некоммерческая.

  • Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
  • GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
  • GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
  • Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
  • Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций
1313
58 комментариев

Поэтому в Гарри Поттере и нельзя было называть имя Волан-де-Морта: их всех писали, переводили в текст и искали по тексту 💁

2
Ответить
9
Ответить
Комментарий удалён модератором

О как связали..

Ответить

И как он распознает какая эмоция вложена в слова «ну за*бись»? Или посчитает глаголом в повелительном наклонении?

2
Ответить

Такое даже я не всегда могу понять ((

4
Ответить

Контекст

Ответить