SberDevices представила семейство моделей машинного обучения для распознавания русскоязычной речи и эмоций
Исходный код открытый, лицензия — некоммерческая.
- Универсальную акустическую модель GigaAM можно адаптировать под распознавание речи, эмоций и дикторов, рассказала команда SberDevices. Её обучали на наборе данных из 50 тысяч часов речи.
- GigaAM-Emo тренировали определять именно эмоции. Её дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актёры озвучки, остальные собраны из подкастов. Каждой записи приписана одна из четырёх состояний: злость, грусть, нейтральная эмоция или счастье.
- GigaAM-CTC затачивали под распознавание запросов и дообучали на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для «умных» колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20-35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3, сообщили в SberDevices.
- Модели размещены в открытом доступе. Их можно использовать для подготовки дипломных работ и научных статей по некоммерческой лицензии.
- Улучшенные версии доступны на платформе SaluteSpeech API, чтобы бизнес мог, например, автоматизировать колл-центры, и в приложении SaluteSpeech App. Пользователи последнего могут опробовать решения в повседневных задачах: распознать запись совещания или лекции в вузе.
История пары из Москвы, которая решила вместо свадебного путешествия вложиться в кондитерский бизнес. О том, как ребята подходили к расчетам инвестиций, выбору помещения и почему у них всё пошло не по плану, читайте в нашей новой статье.
Разбираемся, почему именно техподдержка виновата в том, что вы потеряли клиента.
В мире маркетинга, где тренды часто меняются, а стратегии могут быть сиюминутными, метод Кирпича выделяется своей устойчивостью и долгосрочной ориентацией. Это подход, который напоминает строительство здания: кирпич за кирпичом, шаг за шагом. Но почему он получил такое название, и кто такие «кирпичные люди»? Давайте разбираться.
Её план как замгендиректора должен «расшевелить болото».
К их сожалению, это всего лишь рекламная кампания стриминга.
Сервис поддерживает русский язык.
«Два года назад я была мамой в декрете с долгами и нулём на счету. Сегодня мой закрытый «островок доверия» собирает тысячи женских историй, а рекламодатели платят за доступ к аудитории. Расскажу, как стартовала с бюджетом 500К и окупила вложения за полгода»
Рассказываем, как с помощью ИИ (и не только) упростить поиск работы и прохождение собеседований.
Собираем новости, события и мнения о рынках, банках и реакциях компаний.
Ранее на релиз намекал основатель мессенджера Павел Дуров.
Собрали первые примеры пользователей.
Комментарий недоступен
Комментарий удалён модератором
И как он распознает какая эмоция вложена в слова «ну за*бись»? Или посчитает глаголом в повелительном наклонении?
Такое даже я не всегда могу понять ((
Контекст