Yandex Cloud запустил нейросеть, способную «понимать» одновременно 10 языков Статьи редакции

Она переключается автоматически в зависимости от ответов.

  • Нейросеть Yandex Cloud может распознавать более 10 языков одновременно, объявила компания. С помощью неё можно создавать многоязычных голосовых помощников и роботов для колл-центров с большим потоком клиентов.
  • Например, нейросеть работает с английским, французским, датским, финским, турецким и другими языками. Модель распознаёт речь на любую тему — короткие и длинные фразы, имена, адреса, даты и числа. Она может переключаться между языками в любой момент разговора.
  • Нейросеть работает на базе архитектуры Transformer — обрабатывает вводные слова параллельно и независимо друг от друга, поэтому быстро обучается. Её готовили на десятках терабайтов данных из датасетов и сервисов и приложений «Яндекса».
  • Многоязычная модель работает в сервисе синтеза и распознавания речи Yandex SpeechKit. Его используют больше 1000 клиентов, например, X5 Group и «Додо Пицца». Настроить можно стандартными средствами в API.
0
68 комментариев
Написать комментарий...
Павел Егоров

Проблема пока только в том, что и Яндекс и все остальные STT хорошо процессят только качественную, монтажную речь, примерно как в видосе из поста. Если взять запись телефонного разговора, ну или там запись с какой-нибудь обычной рабочей встречи, то они все ломаются об многочисленные "ээээээ", невнятное произношение, англицизмы и внутренние термины.

Ответить
Развернуть ветку
Иван Тютюнджи

Speechkit как как раз изначально создавался как b2b продукт для каналов и оборудования с неизвестным качеством сигнала. Где клиент будет использовать технологию заранее не понятно, поэтому работать должно везде.

Ответить
Развернуть ветку
65 комментариев
Раскрывать всегда