SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций Статьи редакции

Исходный код открытый, лицензия — некоммерческая.

  • Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
  • GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
  • GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
  • Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
  • Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
0
58 комментариев
Написать комментарий...
Запопу Кусь

Поэтому в Гарри Поттере и нельзя было называть имя Волан-де-Морта: их всех писали, переводили в текст и искали по тексту 💁

Ответить
Развернуть ветку
Юрий Б.
Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
1 комментарий
Владимир К

О как связали..

Ответить
Развернуть ветку
Вадим Д.

И как он распознает какая эмоция вложена в слова «ну за*бись»? Или посчитает глаголом в повелительном наклонении?

Ответить
Развернуть ветку
Timur

Такое даже я не всегда могу понять ((

Ответить
Развернуть ветку
3 комментария
Fallen-117

Контекст

Ответить
Развернуть ветку
1 комментарий
Илларион Колесников

С этим не справится 100%

Ответить
Развернуть ветку
Илья Дёмин
Ответить
Развернуть ветку
Владимир К

о нет, сберкотик

Ответить
Развернуть ветку
Тоже хочу

Сбер опять чужой опенсорс за свой выдает?
https://vc.ru/tribuna/1009612-mihalkov-razoblachil-ii-ot-sber

Ответить
Развернуть ветку
Разработка Телеграм-ботов
использует публичный зарубежный датасет.

Что такое "зарубежный датасет"? Рубежи и зарубежи у данных существуют только в больных головах далеких от IT людей.
Для китайцев, индусов, американцев, немцев - это просто датасет. А для Тоже хочу с Михалковым - это "зарубежный" датасет.

Тот же вопрос про

чужой опенсорс

Опенсорс не может быть "чужим" по определению. Его смысл как раз в том, чтобы им пользовались ВСЕ кто захотят. И то что Сбер им пользуется - молодец. Потому что надо брать уже готовое решение задачи, если оно есть. А НЕ изобретать велосипед.

Ответить
Развернуть ветку
2 комментария
Vladimir Ponomarev

О нет! Там же неправильная дата публикации, должно быть 01/04, правда же? DEVсагон-ТВ от Михалкова.🤦‍♂️

Ответить
Развернуть ветку
Timur

Немного позитивных новостей нам

Ответить
Развернуть ветку
Владимир К

ну как сказать позитивных..

Ответить
Развернуть ветку
Edward Dette

ну должны же быть хоть какие то позитивные новости

Ответить
Развернуть ветку
Giraffe

Скоро эти новости будут о том что мошенники научились этим пользоваться

Ответить
Развернуть ветку
Станислав

Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...

А теперь вопрос к Сберу.

Какого черта документация на английском? Трудно было лицензию на русском сделать?

Ответить
Развернуть ветку
Alexey Ivanov
Какого черта документация на английском?

Нативный язык для любого разработчика. Ну кроме 1С-ников, но этим в принципе документация и не нужна...

Трудно было лицензию на русском сделать?

Чтобы что?

Ответить
Развернуть ветку
15 комментариев
Fallen-117
Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...

Гуглится за минуту

Georgy Gospodinov
Machine Learning Team Lead
SberDevices
https://ru.linkedin.com/in/georgygospodinov

Ответить
Развернуть ветку
13 комментариев
Кирилл Родин

да технологии развиваются что глазом не успеваешь моргнуть, уже даже страшно представить что дальше будет

Ответить
Развернуть ветку
Аккаунт заморожен

Комментарий недоступен

Ответить
Развернуть ветку
Юрий Аристов

"распознавания русскоязычной" - сразу говорю, словосочетание ужасное, такое в принципе невозможно!

Ответить
Развернуть ветку
Дaрья Мaкcимoвa
"Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи."

Ну какая же красота!
Все ваши диалоги с техподдержкой и роботами записали, оцифровали и теперь "СЛУЖБА БЕЗОПАСНОСТИ СБЕРБАНКА" может с лёгкостью подделывать ваш голос (DeepFake) и вашим же голосом просить у ваших родственников деньги.
Отличная мошенническая схема, сбер

Ответить
Развернуть ветку
55 комментариев
Раскрывать всегда