SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций Статьи редакции

Исходный код открытый, лицензия — некоммерческая.

  • Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
  • GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
  • GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
  • Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
  • Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
0
58 комментариев
Написать комментарий...
Тоже хочу

Сбер опять чужой опенсорс за свой выдает?
https://vc.ru/tribuna/1009612-mihalkov-razoblachil-ii-ot-sber

Ответить
Развернуть ветку
Разработка Телеграм-ботов
использует публичный зарубежный датасет.

Что такое "зарубежный датасет"? Рубежи и зарубежи у данных существуют только в больных головах далеких от IT людей.
Для китайцев, индусов, американцев, немцев - это просто датасет. А для Тоже хочу с Михалковым - это "зарубежный" датасет.

Тот же вопрос про

чужой опенсорс

Опенсорс не может быть "чужим" по определению. Его смысл как раз в том, чтобы им пользовались ВСЕ кто захотят. И то что Сбер им пользуется - молодец. Потому что надо брать уже готовое решение задачи, если оно есть. А НЕ изобретать велосипед.

Ответить
Развернуть ветку
Alexey
Ответить
Развернуть ветку
Fallen-117

Закрытая ОС для консолей Sony Playstation основана на ОС с открытым кодом - FreeBSD. В чём проблема?! Лицензия позволяет не создавать очередной "велосипед".

Ответить
Развернуть ветку
55 комментариев
Раскрывать всегда