От контакт-центра компании до умного девайса: как речевые технологии решают задачи бизнеса

Робот контактного центра Сбера и виртуальные ассистенты семейства Салют разговаривают с людьми с помощью речевых технологий. Нейросетевые модели, на которых они работают, мы создали с нуля — так, чтобы система идеально понимала пользователей и давала качественные «человечные» ответы на русском языке. Теперь эти разработки может использовать бизнес — с помощью платформы SmartSpeech, созданной в SberDevices. Рассказываем, на что она способна, что в ней особенного и как научить машину общаться с клиентами.

Как работает SmartSpeech — и чем наша платформа отличается от других

Возможно, вы помните, как плохо звучали первые голосовые помощники. Siri, живущая в айфонах, не угадывала с интонациями, плохо расставляла паузы и ударения. С пониманием человеческой речи тоже были проблемы: иногда приходилось повторять запрос несколько раз. Сейчас разработчики по всему миру совершенствуют речевые технологии и создают новые нейросетевые модели, чтобы сделать общение с виртуальными ассистентами максимально естественным. И не зря: компании всё чаще используют такие технологии для решения своих бизнес-задач, и от того, понравится ли клиенту опыт взаимодействия с голосовым помощником, зависит многое. Речевыми технологиями занимаются крупнейшие IT-компании, например Apple, Amazon, Google. А в последние годы — и Сбер.

Распознавание речи (ASR, automatic speech recognition) — «слух» голосовых помощников. Технология превращает сказанное человеком в текст: запрос появляется на экране как если бы пользователь его напечатал.

Чтобы точно понимать человека, нейросети SmartSpeech распознают шум и игнорируют его: разговоры других людей или бормотание телевизора — не помеха. Ещё наши модели определяют, когда пользователь закончил реплику — и ассистенты не перебивают его. Кстати, разработчики могут регулировать период ожидания конца высказывания. Например, если от пользователя ждут короткий ответ (да или нет), время можно сократить — и говорящему не придётся долго ждать ответа от виртуального ассистента.

Кроме того, мы внедрили хинты — подсказки для системы распознавания, которые помогают ей справляться с нестандартными кейсами. Благодаря им нейросеть корректно понимает даже «несуществующие» слова, с которыми она никогда раньше не сталкивалась, например уникальные названия продуктов компании.

Или, допустим, слово вполне обычное, но существуют созвучные ему слова с другими значениями – например, название игры на английском языке и блюдо на русском. В этом случае можно подсказать модели, что сейчас речь идёт именно о блюде (передать в хинты список блюд) и получить правильное распознавание.

Так распозналось название игры
А так — блюдо. Платформа использовала хинт

Общаясь с потенциальными заказчиками, мы поняли, что бизнес хотел бы распознавать эмоции клиентов. Сейчас наши технологии позволяют по голосу определить три эмоции: положительную, отрицательную и нейтральную. Допустим, клиент остался недоволен разговором и говорил раздражённо — платформа предоставит информацию об этом.

Ещё одной важной задачей стала работа с пунктуацией. Человеческую речь, переведённую в текст, гораздо проще воспринимать, если расставлены знаки препинания. Мы научили алгоритмы ставить «?» в конце вопросительных предложений, чтобы диалог с ассистентом получился естественным. Например, для генеративных моделей важно понимать, какое предложение произнёс пользователь — утвердительное или вопросительное.

Синтез речи (TTS, text to speech) — «голос» виртуальных ассистентов. Теперь нет необходимости заранее записывать фразы. Чтобы получить озвученную реплику, достаточно отдать текст нейросети — и робот прочтёт его вслух.

Чтобы добиться качественного синтеза, мы работали с хорошо зарекомендовавшими себя нейросетевыми архитектурами, такими как Tacotron 2. Однако просто взять архитектуру было недостаточно: всех проблем это, разумеется, не решило. Например, система по-прежнему неестественно озвучивала вопросительные предложения. Чтобы решить проблему, мы добавили языковую модель BERT, которую предварительно обучили русскому языку на большом количестве текстов. Теперь архитектура считывает не только слова, но и смысл написанного — и задает вопросы с органичной интонацией.

За корректные паузы в предложениях и выделение нужных слов отвечают отдельные модели. Также благодаря им мы научили нейросети распознавать букву «ё». Если вы загрузите на платформу текст «Николай все решил и отправился в дом, где живут его сестры», система поймёт, что «все» в этом случае читается как «всё», а вместо слова «сестры» надо произнести «сёстры». С помощью другой модели мы решили проблему расстановки ударений: во фразе «Замок на двери был сломан» нейросеть синтезирует правильно — «замóк».

Отдельный комплекс алгоритмов отвечает за нормализацию текста, чтобы виртуальные ассистенты грамотно произносили цифры, названия и адреса. Без нормализации возникла бы путаница. Так, нейросети не понимали бы, что «Кутузовский пр-т» — это Кутузовский проспект.

Так распознаётся номер телефона: сразу в правильном формате

Во многих случаях синтезированная с помощью SmartSpeech речь неотличима от человеческой. Один из потенциальных заказчиков, с которым команда общалась ещё до запуска платформы, сказал, что наш синтез звучит «слишком естественно»: для него было важно, чтобы клиенты сразу же понимали, что говорят с роботом. При этом в большинстве случаев компании всё-таки хотят получить естественное звучание.

Сейчас на платформе четыре голоса, но в ближайшее время мы хотим расширить библиотеку, чтобы клиенты смогли выбрать понравившийся синтез, отталкиваясь от своих потребностей.

В отдельных случаях можно будет выйти за рамки библиотеки: если компания захочет уникальный синтез, мы организуем кастинг дикторов, поможем выбрать подходящего и обучим нейросеть на его голосе. Если вам не хватило технических деталей в рассказе о синтезе — добро пожаловать в наш блог на «Хабре», здесь мы рассказали о технологии подробнее.

Зачем речевые технологии бизнесу — и как испытать SmartSpeech в деле

Чтобы воспользоваться платформой, нужно отправить заявку, а мы предоставим вашим разработчикам доступ к API. Наши речевые технологии «из коробки» можно интегрировать на сайт компании, в приложение, в хардверное устройство или использовать для ответов на звонки в контактный центр, чтобы снизить нагрузку на операторов.

Как протестировать SmartSpeech

1. Перейти по ссылке.

2. Войти в SmartMarket Studio — платформу для разработчиков.

3. Выбрать личное пространство и создать проект SmartService.

4. Заполнить заявку на подключение к SmartSpeech и отправить её на модерацию (в среднем на проверку уходит до трёх рабочих дней).

Многие компании автоматизируют работу со звонками, записывая готовые реплики, но процесс можно упростить. Представим, что магазин нанял диктора для записи фраз со списком товаров. Через месяц ассортимент изменился — и нужно снова привлекать диктора. А это дополнительные траты и риски: диктор может уйти в отпуск, простудиться или просто не найти времени на сотрудничество. Синтез речи упрощает процесс: достаточно передать в API список новых товаров и услуг в виде текста, а потом сохранить получившийся звуковой поток аудиофайлом. По этому же принципу с помощью SmartSpeech компании могут озвучивать тексты сайтов и приложений: информацию можно не только читать, но и слушать. В некоторых случаях это гораздо удобнее. Например, когда человек за рулём или готовит ужин.

Также SmartSpeech помогает быстрее решить вопрос, с которым обращается клиент. Звонящий говорит, какая услуга ему нужна — и либо сразу попадает на нужного оператора («Хочу оформить кредит»), либо получает ответ от робота («Сколько денег на счёте?»). Кнопочное меню в духе «Чтобы узнать баланс, нажмите один» теперь в прошлом — подобная коммуникация малоинформативна и отнимает у людей слишком много времени. Однако некоторые компании до сих пор её используют, и для такого кейса наша платформа тоже подойдёт.

Есть и менее распространённые бизнес-задачи, которые решает SmartSpeech. Например, расшифровка подкастов: алгоритмы превращают речь в текст. Или распознавание поисковых запросов: пользователь говорит, что именно ищет («Смартфон с хорошей камерой до 30 000 ₽»), и видит подобранные варианты в приложении или на сайте компании.

С базовыми кейсами платформа уже справляется без проблем: небольшой магазин подарков может отдать нейросетям список ассортимента — и они распознают названия товаров. Но если сервисом захочет воспользоваться крупная фармацевтическая компания, мы предложим дообучить имеющуюся модель или даже обучим новую, чтобы она точно понимала специфическую медицинскую лексику и ориентировалась в сотнях тысяч названий препаратов.

Сейчас мы хотим понять, как улучшить SmartSpeech и какие ещё бизнес-задачи может решать платформа, поэтому с каждым запросом команда будет работать отдельно. Оставьте заявку, и мы обсудим, как именно ваш бизнес может использовать наши речевые технологии, чтобы автоматизировать процессы, улучшить обслуживание и в конечном счёте увеличить выручку.

0
1 комментарий
pancakeForev

Тупые шаблонные ответы, никакой логики, так проще у Яндекс поиск забить вопрос - результат тот же, вместо автоответчика раньше лучше был живой человек. Уверен что сумма на разработку, поддержку, зарплаты программистов гораздо выше, чем содержать штат операторов

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда