SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций Статьи редакции
Исходный код открытый, лицензия — некоммерческая.
- Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
- GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
- GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
- Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
- Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
6.3K
показов
3.1K
открытий
Посмотрел документацию на гит хаб. Одно только имя разработчика georgygospodinov чего стоит...
А теперь вопрос к Сберу.
Какого черта документация на английском? Трудно было лицензию на русском сделать?
Нативный язык для любого разработчика. Ну кроме 1С-ников, но этим в принципе документация и не нужна...
Трудно было лицензию на русском сделать?Чтобы что?
Про код мы не говорим. Он должен быть согласно стандарта. А вот описание его подключения нужно делать на русском. Примеры на языке кода. А то товар наш русский, инструкция на чужеродном языке.
Программистам английский язык - не чужеродный. Каждый программист обязан понимать, как минимум, техническую документацию, написанную на английском языке)
Не нужно путать одно с другим. Не один программист не должен английский знать. Вот язык на котором он программирует он должен знать. Но там от английского только буквы латинские.
И хватит уже это утверждение защищать.
Кажется вы не знаете даже русского. Это печально.
И хватит уже это утверждение защищатьПочему? Или даже: а то что?
Печально то, что такие как Вы русский язык за айфон продать готовы. Все ясно с вами. Только напомню вам один момент, русский язык ООН признал мировым.
Очень иронично видеть, как в продаже русского языка меня обвиняет человек, не владеющий им даже на уровне выпускника средней школы :)
Для начала мы тут не на форуме литературоведов. Ну, и когда аргументы кончаются, начинают придумывать их.
Чел, ну ты полез выдумывать, что я кому-то (кому, кстати) продал язык за айфон (иронично с учетом того, что у меня андроид и кнопочная звонилка).
Так что ты молодец: осознание проблемы - первый шаг к ее исправлению
Пишут документацию в большинстве случаев на английском языке для библиотек и пакетов, которые используют программисты.
Тут явно не тот случай. Да и пользователи все будут из России. Или Сбер думает их труд будут на западе использовать. Кто будет использовать тут же попадет под санкции.
Да нет, тут как раз таки тот случай, а с вашей стороны действительно только придирки, лишь бы написать комментарий. А перевод может быть немного попозже и вы со всем сможете ознакомиться)
Никто не попадёт под какие-то мифические санкции, используя открытый исходный код. Не путайте со всякими EULA, в которые вписывают, что душе угодно.
ЦИПСОта и здесь прослеживается: упоминание санкций даже там, где они не имеют никакого значения.
Голубчик, а вы, простите, по профессии кто будете?
Это просто придирки)
Ну из таких мелочей все и начинается.