Анализ разговоров с клиентами, автоответчик и речевое управление: зачем добавлять в свой сервис голосовые технологии

Маруся не нуждается в особом представлении. Этот умный голосовой помощник Mail.ru Group приходит на выручку, когда нужно вызвать такси с двумя детьми на руках, включить расслабляющий плейлист на Spotify, не выходя из аштавакрасаны, позвонить или найти профиль друга ВКонтакте. Но этим ее возможности не ограничиваются — рассказываем, как Маруся помогает бизнесу.

Для начала разберемся, как вообще устроен голосовой помощник. Три его главных компонента — система распознавания речи (automatic speech recognition, или ASR), система синтеза речи (text-to-speech, или TTS) и поисковая система. Система распознавания выделяет в потоке речи запрос, поиск подбирает наиболее подходящий ответ, а синтез речи зачитывает этот ответ приятным женским голосом.

Все эти три компонента используют машинное обучение, чтобы постоянно совершенствоваться. Распознаватель речи учится новым словам и акцентам, синтезатор речи старается все точнее ставить ударения и «попадать» в интонацию, а поиск — точнее отбирать и компоновать ответы на заковыристые вопросы.

Вот несколько распространенных примеров применения этих технологий:

  • Получать инсайты из разговоров с клиентами. При большом штате операторов колл-центра обычно получается лишь выборочно проверять качество клиентского сервиса. Это не всегда дает адекватную картину того, с какими проблемами сталкиваются ваши клиенты и как вы можете улучшить сервис. Но если автоматически расшифровывать и анализировать записи разговоров, можно выявлять проблемные моменты. А заодно анализировать качество работы операторов: насколько они вежливы, правильно ли идут по скрипту разговора и т.д.
  • Развернуть удобную для клиентов систему голосового автоответчика (auto voice responder, или AVR). Вы наверняка не раз сталкивались с AVR, которая читает текст одним голосом и интонацией, а затем неожиданно начинает говорить с вами голосом совсем другого диктора. Это врожденный недостаток старых «аналоговых» систем, в которых скрипты нельзя «красиво» обновить без полной перезаписи фраз. Вместо этого можно генерировать озвучивание текста скрипта на лету, пользуясь публичным API. При этом алгоритмы формирования фраз в движке синтеза речи гораздо более гибкие в сравнении с системами предыдущего поколения. Такой текст звучит органичнее и не вызывает у пользователей отторжения.
  • Озвучивать текст на сайте или в приложении. Если вы опубликовали интересную статью, но ваш читатель сейчас за рулем или тренируется в наушниках, вы можете не потерять его внимание, а зачитать текст голосом помощника.
  • Добавить голосовое управление в приложение, чтобы сократить путь к решению задачи. Например, ваш клиент хочет повторить последний заказ. Обычно для этого нужно перейти через главное меню в личный кабинет, затем открыть список всех заказов, выбрать в нем последний заказ и нажать кнопку повтора, если она есть. Вместо этого можно добавить голосовую команду «Повтори последний заказ».

Давайте посмотрим, как Маруся справляется с подобными задачами. Все перечисленные ниже навыки вы можете протестировать сами, используя умные колонки Капсула и Капсула Мини, приложения Маруси для iOS и Android, веб-версию и суперприложение Почты Mail.ru.

Голосовой навигатор в специализированных приложениях. Кейс Hi-Chef

Hi-Chef — онлайн-сервис и мобильное приложение для любителей готовить дома. Цель — создать совершенно новый кулинарный ресурс, максимально удобный для использования на смартфонах.

Идея проекта родилась из результатов аналитики сервиса Леди Mail.ru. Создатели этого сервиса увидели стабильный рост посещаемости в разделе «Рецепты» среди мобильных пользователей год к году.

Работа с фокус-группами помогла выявить основную боль пользователей, которой до них никто системно не занимался. При готовке многие читают рецепты с мобильных телефонов, но пока вы шинкуете лук или раскатываете тесто, экран гаснет. А значит, вам нужно или включить его грязными руками, или обмотать гаджет пищевой пленкой.

Создатели приложения сконцентрировались на этих двух моментах и придумали следующее решение. Чтобы упростить доступ к главной информации, они переупаковали доступные в базе рецепты в формат сторис с коротким текстом, который зачитывается голосом Маруси.

Решение также доступно как навык Маруси: можно попросить ее найти нужный рецепт, а затем просто следовать шагам, которые умная колонка или смартфон будет зачитывать. При этом можно точно так же перемещаться между шагами, просить снова прочитать текст текущего шага и т.д.

Результат — 600 000 пользователей на второй месяц публикации приложения.

Голосовой заказ продуктов у популярного бренда. Кейс Макдоналдс

Для Маруси был разработан навык заказа из меню McDonalds. Приложение показывает список блюд, а клиент зачитывает названия тех из них, которые хочет заказать. Затем приложение передает ресторану заказ, а курьер его привозит.

Поскольку названия вроде «макфлурри» и «чикен макнаггетс» редко произносятся в обычной речи, на раннем этапе разработки система распознавания часто неправильно понимала запрос. И здесь для бренда сыграла свою роль возможность напрямую поработать с разработчиками Маруси. Мы проанализировали тысячи примеров того, как реальные пользователи произносят блюда из меню, а затем обучили модель на этих данных. На текущий момент ошибка составляет уже лишь 2—3% вместо 40—45%, а бренд получил новый канал приема заказов.

Брендированный голосовой навык для доступа к экспертным статьям. Кейс Purina

Весной этого года Mail.ru Group вместе с брендом Purina разработали навык «Питомцы» для Маруси, который расширяет возможности платформы Питомцы Mail.ru. С помощью навыка хозяева домашних животных получают простой доступ к полезным материалам на портале. Это статьи и комментарии ветеринаров, кинологов, зоопсихологов и других экспертов.

Задача навыка — создать новый пользовательский опыт и дополнительную ценность на базе существующего контента площадки. Для бренда же это дополнительный инструмент последовательного продвижения своей инициативы по развитию культуры осознанного и ответственного отношения к домашним животным.

Поисковый алгоритм подбирает самый релевантный ответ на вопрос, при этом навык Маруси позволяет «провалиться» в тему, подбирая дополнительные материалы для пользователя.

Тестирование показало, что порядка 30% диалогов — серьезные вопросы, связанные со здоровьем домашних животных. Хозяева, которым нужна экспертная помощь по этой теме, глубже погружаются во взаимодействие с навыком, и средняя глубина вовлечения в диалог оказывается близкой к показателям встроенных навыков Маруси. Иными словами, при правильном проектировании навыка бизнес может получить действительно вовлекающий инструмент.

Зачем нужно облачное решение

Вплотную поработав с брендами, мы увидели, что Маруся уже сейчас может решать актуальные задачи пользователей и положительно влиять на клиентский сервис. Следующий логический шаг — сделать лежащие в ее основе технологии максимально доступными для бизнеса. Поэтому мы решили запустить новый сервис Voice, он работает на облачной платформе Mail.ru Cloud Solutions.

Здесь стоит отметить, что у облачных технологий распознавания и синтеза речи есть ряд преимуществ перед Self-Hosted решениями. Вот главные из них:

  • Простота интеграции. Как разработчик вы получаете простой единый API и можете использовать любой удобный вам язык программирования. По сути, чтобы получить готовое решение, достаточно положить на сервис бизнес-логику.
  • Новые возможности для бизнеса. Мы непрерывно совершенствуем существующие и добавляем новые возможности для развития бизнеса. Облако делает новые функции доступными пользователям сразу, без необходимости обновлять и настраивать сервис.
  • Простая система тарификации по факту использования. Вы платите только фиксированную стоимость за единицу озвученного текста и длительность аудиозаписи, текст в которой надо распознать.

Чтобы протестировать технологию, зарегистрируйтесь на платформе Mail.ru Cloud Solutions. Вы получите 3000 бонусных рублей на тестирование. Этой суммы хватит на озвучку трех миллионов символов или распознавание аудиозаписей общей длительностью чуть более четырех дней.

Кратко о сочетании технологий ASR и TTS и облачных вычислений

  • Качество распознавания и синтеза речи в целом выросло до уровня, когда пользоваться им стало комфортно. Исследование PricewaterhouseCoopers говорит, что уже более половины пользователей мобильников отдают устройствам голосовые команды.
  • Если выявить действительно важные для клиентов темы и правильно спроектировать диалоги, можно создать навык с высокой степенью вовлечения пользователя.

  • Преимущество облачных технологий распознавания и синтеза речи — мгновенная доступность улучшений для конечных пользователей и разработчиков интеграционных решений.
0
2 комментария
Vladimir Semenov

Ненавижу роботов-автоответчиков, якобы ведущих диалог. Складывается ощущение, что тебя пытаются за дурака держать, что неприятно и огорчает. А в фирмы где этот робот особо навязчивый и не даёт варианта соединения с оператором второй раз обращаться уже не хочется.

Ответить
Развернуть ветку
Сергей Коновалов

Цена услуги робота-автоответчика, или предоставляется только функционал распознавания и воспроизведения речи?

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда