Yandex Cloud запустил нейросеть, способную «понимать» одновременно 10 языков Статьи редакции
Она переключается автоматически в зависимости от ответов.
- Нейросеть Yandex Cloud может распознавать более 10 языков одновременно, объявила компания. С помощью неё можно создавать многоязычных голосовых помощников и роботов для колл-центров с большим потоком клиентов.
- Например, нейросеть работает с английским, французским, датским, финским, турецким и другими языками. Модель распознаёт речь на любую тему — короткие и длинные фразы, имена, адреса, даты и числа. Она может переключаться между языками в любой момент разговора.
- Нейросеть работает на базе архитектуры Transformer — обрабатывает вводные слова параллельно и независимо друг от друга, поэтому быстро обучается. Её готовили на десятках терабайтов данных из датасетов и сервисов и приложений «Яндекса».
- Многоязычная модель работает в сервисе синтеза и распознавания речи Yandex SpeechKit. Его используют больше 1000 клиентов, например, X5 Group и «Додо Пицца». Настроить можно стандартными средствами в API.
4
показа
6.5K
открытий
5
репостов
Проблема пока только в том, что и Яндекс и все остальные STT хорошо процессят только качественную, монтажную речь, примерно как в видосе из поста. Если взять запись телефонного разговора, ну или там запись с какой-нибудь обычной рабочей встречи, то они все ломаются об многочисленные "ээээээ", невнятное произношение, англицизмы и внутренние термины.
Speechkit как как раз изначально создавался как b2b продукт для каналов и оборудования с неизвестным качеством сигнала. Где клиент будет использовать технологию заранее не понятно, поэтому работать должно везде.