SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций Статьи редакции

Исходный код открытый, лицензия — некоммерческая.

  • Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
  • GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
  • GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
  • Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
  • Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
0
58 комментариев
Написать комментарий...
Станислав

Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...

А теперь вопрос к Сберу.

Какого черта документация на английском? Трудно было лицензию на русском сделать?

Ответить
Развернуть ветку
Fallen-117
Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...

Гуглится за минуту

Georgy Gospodinov
Machine Learning Team Lead
SberDevices
https://ru.linkedin.com/in/georgygospodinov

Ответить
Развернуть ветку
Станислав

Ну я рад за него. Надеюсь тут есть представители СБЕРа , которые вставят ему за такое.

Ответить
Развернуть ветку
Fallen-117

За что ему они должны "вставить"? За какую-то "неправильную" фамилию?!

Ответить
Развернуть ветку
Станислав

Причем тут фамилия. Это его дело как там называться. Просто если делаешь продукт для России, будь добр пиши описание на русском. И тем более текст лицензии.

Ответить
Развернуть ветку
Alexey Ivanov
Просто если делаешь продукт для России

А кто вам сказал, что Сбер сделал продукт для России? Где вы это умудрились в опенсорсной лицензии отыскать?

Ответить
Развернуть ветку
Станислав
Ответить
Развернуть ветку
Alexey Ivanov
где тут опенсорс как бы?

В п.1.3, 1.10, 2.1 и т.д. лицензии? Или вы английский вообще не знаете?

Ответить
Развернуть ветку
Станислав

Не знаю, чтобы лицензии читать. Тем более ваш любимый гений и тут отличился. Вместо текста поставил PDF файл состоящий из картинок.

Ответить
Развернуть ветку
Роман Рабочий

братан это фиаско

Ответить
Развернуть ветку
Fallen-117

Вы своими выпадами больше похожи на ЦИПСОту, которая бесится, что в России успешно развивается направление работы в такой стратегически и технологически важной области, как нейросети.

Ответить
Развернуть ветку
Yrdna

Спасибо, поржал! Жги ещё тролль!

Ответить
Развернуть ветку
Fallen-117

Да не трясись ты!

Ответить
Развернуть ветку
55 комментариев
Раскрывать всегда