SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций Статьи редакции
Исходный код открытый, лицензия — некоммерческая.
- Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
- GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
- GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
- Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
- Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
6.3K
показов
3.1K
открытий
Поэтому в Гарри Поттере и нельзя было называть имя Волан-де-Морта: их всех писали, переводили в текст и искали по тексту 💁
Комментарий удален модератором
О как связали..
И как он распознает какая эмоция вложена в слова «ну за*бись»? Или посчитает глаголом в повелительном наклонении?
Такое даже я не всегда могу понять ((
Контекст
С этим не справится 100%
о нет, сберкотик
Сбер опять чужой опенсорс за свой выдает?
https://vc.ru/tribuna/1009612-mihalkov-razoblachil-ii-ot-sber
Что такое "зарубежный датасет"? Рубежи и зарубежи у данных существуют только в больных головах далеких от IT людей.
Для китайцев, индусов, американцев, немцев - это просто датасет. А для Тоже хочу с Михалковым - это "зарубежный" датасет.
Тот же вопрос про
чужой опенсорсОпенсорс не может быть "чужим" по определению. Его смысл как раз в том, чтобы им пользовались ВСЕ кто захотят. И то что Сбер им пользуется - молодец. Потому что надо брать уже готовое решение задачи, если оно есть. А НЕ изобретать велосипед.
О нет! Там же неправильная дата публикации, должно быть 01/04, правда же? DEVсагон-ТВ от Михалкова.🤦♂️
Немного позитивных новостей нам
ну как сказать позитивных..
ну должны же быть хоть какие то позитивные новости
Скоро эти новости будут о том что мошенники научились этим пользоваться
Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...
А теперь вопрос к Сберу.
Какого черта документация на английском? Трудно было лицензию на русском сделать?
Нативный язык для любого разработчика. Ну кроме 1С-ников, но этим в принципе документация и не нужна...
Трудно было лицензию на русском сделать?Чтобы что?
Гуглится за минуту
Georgy Gospodinov
Machine Learning Team Lead
SberDevices
https://ru.linkedin.com/in/georgygospodinov
да технологии развиваются что глазом не успеваешь моргнуть, уже даже страшно представить что дальше будет
Комментарий недоступен
"распознавания русскоязычной" - сразу говорю, словосочетание ужасное, такое в принципе невозможно!
Ну какая же красота!
Все ваши диалоги с техподдержкой и роботами записали, оцифровали и теперь "СЛУЖБА БЕЗОПАСНОСТИ СБЕРБАНКА" может с лёгкостью подделывать ваш голос (DeepFake) и вашим же голосом просить у ваших родственников деньги.
Отличная мошенническая схема, сбер