Как технологии распознавания речи улучшают телефонных роботов

Летом 2021 года компания Infobot, которая сделала платформу для разработки телефонных роботов для бизнеса, начала сотрудничать с платформой для распознавания и синтеза речи SmartSpeech, созданной в SberDevices. О том, как Infobot использует речевые технологии и можно ли по голосу распознать эмоции клиента, рассказывает основатель и CPO компании Юрий Евстратов.

Может показаться, что решения Infobot и SmartSpeech находятся в одной плоскости, но на самом деле это не так. Если упростить, то речевые технологии от SmartSpeech — это решение для разработчиков, которое можно применять внутри диалоговых систем: преобразовывать речь в текст и наоборот в режиме реального времени или выполнять глубокий анализ архивов записей в отложенном режиме.

Для создания качественного робота одних только речевых технологий недостаточно — нужно выстроить логику диалогов, прописать сценарии и многое другое. Infobot предоставляет своим клиентам голосового робота, который, например, переадресовывает звонки нужным сотрудникам или справляется с запросом клиента самостоятельно. Теперь робот работает в связке с платформой распознавания речи от SberDevices.

Самое важное для распознавания речи в телефонном канале — это качество. Например, робот не должен слышать слово «печка» как «свечка» — от этого зависит развитие диалога. Ещё один важный фактор — скорость распознавания, ведь если во время телефонного разговора робот вдруг замолчит, собеседник может подумать, что разговор окончен. Скорость ответа робота зависит от того, как быстро наша NLP-система выберет нужный ответ, а ещё — от скорости обработки запроса сервисом преобразования речи в текст. У некоторых вендоров на рынке с этим не всё гладко, и в некоторых случаях варианты ответа приходят позже ожидаемого. В итоге робот медленнее отвечает абоненту.

Узнав о запуске платформы SmartSpeech, мы решили её попробовать и уже летом 2021 года начали работу. Сначала мы испытали технологии распознавания на проекте телефонного секретаря, когда робот спрашивал у абонента ФИО сотрудника, с которым нужно соединить. В телефонной книге компании было около 2 тысяч абонентов, и для нас было важно, чтобы SmartSpeech справилась с распознаванием разнообразных имён, фамилий и отчеств. До этого мы пробовали решение другой крупной компании, и его качество нас не устроило. Например, если абонент говорил фамилию Акулова, платформа её распознавала как «акула». Со SmartSpeech таких проблем не было.

Получив хорошие результаты на тестах, мы начали постепенно интегрировать наши решения клиентам. Десятки небольших клиентов, которым мы предлагаем SaaS-сервис, уже выбирают SmartSpeech среди прочих, а в 2–3 крупных проектах платформа уже интегрирована на постоянной основе. Если оценивать в долях, то SmartSpeech уже работает у 10–15% наших клиентов, и мы планируем увеличивать этот показатель.

Среди первых крупных клиентов, которым мы предложили внедрить платформу SmartSpeech, оказалась IT-компания КРОК — один из ведущих российских системных интеграторов. Мы объединили решение Infobot с платформой SmartSpeech на основном номере телефона компании. Теперь все клиенты называют роботу причину обращения или фамилию сотрудника, с которым они хотят пообщаться. SmartSpeech отвечает за распознавание речи, а решения Infobot, созданные в соответствии с бизнес-логикой КРОК, — за приём обращений и соединение с сотрудником.

Например, система проверяет, есть ли такой человек в справочнике компании и можно ли вообще соединять звонящих с этим сотрудником. Если всё в порядке, робот переадресует звонок. А если коммуникация с сотрудником невозможна, звонок переводится на оператора колл-центра. Это решение позволило на 70% сократить количество обращений к операторам. При этом повысилось качество обработки обращений: теперь платформа корректно распознает запрашиваемые имена и робот не соединяет звонящего с Ивановым Иваном Алексеевичем, если человек хотел позвонить его почти полному тёзке, но с отчеством Александрович. Кроме того, роботу не нужно больше задавать дополнительные вопросы, а звонящему клиенту — отвечать на них, как это было раньше, когда мы работали с другим вендором.

Особых сложностей с интеграцией нового решения у нас не возникло — у платформы понятный API, и всё работает так, как описано в документации. И всё же на первых этапах нужно было понять логику работы: у других вендоров она отличается. Ещё одним барьером на запуске стали небольшие лимиты на распознавание — по умолчанию SmartSpeech предоставляет клиентам 10 потоков. Это определённое количество одновременных сессий распознавания на единицу времени. Однако эту проблему почти сразу решили в службе поддержки: мы рассказали об этой сложности в пятницу, а в понедельник у нас уже было 100 потоков.

На этапе распознавания SmartSpeech присылает больше гипотез и позволяет точнее отрегулировать систему Infobot. Гипотезы — это варианты распознанного текста. Допустим, человек говорит «скрип колеса». Скорее всего, в первой гипотезе будет правильный вариант, а во второй «скрипка лиса». Изучать гипотезы важно, чтобы точнее выстраивать диалоги. Мы начали работать с платформой только летом 2021 года, и у нас уже есть первые положительные отзывы от клиентов. А по нашей субъективной оценке система стала работать заметно лучше — качество распознавания улучшилось примерно на 2–3%. Это весомое улучшение, а на дальней дистанции показатель может вырасти на десятки процентов.

<p>Гипотезы распознавания, которые возвращает сервис SmartSpeech</p>

Ещё в решении SberDevices нам понравилась возможность распознавания эмоционального окраса обращения. Такой опции у другого вендора вообще не было, хотя это очень полезная вещь. Люди звонят в ту или иную компанию не только для того, чтобы связаться с сотрудниками, но и, например, желая пообщаться с техподдержкой или командой маркетинга. Здесь оценка эмоций звонящего будет очень полезной и позволит нам подключать оператора на нужном этапе.

И всё же любая система распознавания сталкивается со сложностями. Например, называя номер счётчика, начинающийся с 900, человек может сказать «девять ноль ноль» или «девятьсот» и сделать паузу перед второй частью номера. А фразой «девятьсот двадцать шесть» абонент может описать как 900 026, так и 926. Поэтому нам приходится дописывать обработчики речи, чтобы сделать распознавание идеальным. В SmartSpeech для таких случаев есть хинты — подсказки. Например, если набор цифр, которые называет человек, похож на телефонный номер, система распознает его именно в формате телефонного номера. Мы пока не используем хинты, но изучаем такую возможность.

Пока мы успели поработать только с распознаванием речи на платформе SmartSpeech, но хотели бы попробовать и синтез. Если он будет классно решать наши задачи, а мы научимся с ним работать, то точно будем использовать его. А пока мы планируем записывать некоторые фразы прямо на платформе, выбирая дикторов. Это удобно использовать для озвучивания реплик в заранее известных сценариях. Например, когда нужно подсказать клиенту часы работы компании или рассказать о товарном ассортименте.

Выбор диктора на платформе SmartSpeech для синтеза речи

Ещё нам хотелось бы, чтобы появилось автоматическое распознавание гендера абонента. Это нужно, чтобы скорректировать диалог с клиентом. Мы проводили тестирование, чтобы сравнить, как работают рассылки наших заказчиков по их клиентским базам в зависимости от разделения по полу. Оказалось, что конверсия при разделении была на много процентов выше. А пока мы думаем, как подключить SmartSpeech к другим проектам, в которых мы используем других вендоров. Сейчас наша задача — дать клиентам возможность выбирать.

Как технологии распознавания речи улучшают телефонных роботов

Каким должно быть распознавание

Чем ещё отличается решение SmartSpeech

Что дальше