Анализ разговоров с клиентами, автоответчик и речевое управление: зачем добавлять в свой сервис голосовые технологии
Маруся не нуждается в особом представлении. Этот умный голосовой помощник Mail.ru Group приходит на выручку, когда нужно вызвать такси с двумя детьми на руках, включить расслабляющий плейлист на Spotify, не выходя из аштавакрасаны, позвонить или найти профиль друга ВКонтакте. Но этим ее возможности не ограничиваются — рассказываем, как Маруся помогает бизнесу.
Для начала разберемся, как вообще устроен голосовой помощник. Три его главных компонента — система распознавания речи (automatic speech recognition, или ASR), система синтеза речи (text-to-speech, или TTS) и поисковая система. Система распознавания выделяет в потоке речи запрос, поиск подбирает наиболее подходящий ответ, а синтез речи зачитывает этот ответ приятным женским голосом.
Все эти три компонента используют машинное обучение, чтобы постоянно совершенствоваться. Распознаватель речи учится новым словам и акцентам, синтезатор речи старается все точнее ставить ударения и «попадать» в интонацию, а поиск — точнее отбирать и компоновать ответы на заковыристые вопросы.
Вот несколько распространенных примеров применения этих технологий:
- Получать инсайты из разговоров с клиентами. При большом штате операторов колл-центра обычно получается лишь выборочно проверять качество клиентского сервиса. Это не всегда дает адекватную картину того, с какими проблемами сталкиваются ваши клиенты и как вы можете улучшить сервис. Но если автоматически расшифровывать и анализировать записи разговоров, можно выявлять проблемные моменты. А заодно анализировать качество работы операторов: насколько они вежливы, правильно ли идут по скрипту разговора и т.д.
- Развернуть удобную для клиентов систему голосового автоответчика (auto voice responder, или AVR). Вы наверняка не раз сталкивались с AVR, которая читает текст одним голосом и интонацией, а затем неожиданно начинает говорить с вами голосом совсем другого диктора. Это врожденный недостаток старых «аналоговых» систем, в которых скрипты нельзя «красиво» обновить без полной перезаписи фраз. Вместо этого можно генерировать озвучивание текста скрипта на лету, пользуясь публичным API. При этом алгоритмы формирования фраз в движке синтеза речи гораздо более гибкие в сравнении с системами предыдущего поколения. Такой текст звучит органичнее и не вызывает у пользователей отторжения.
- Озвучивать текст на сайте или в приложении. Если вы опубликовали интересную статью, но ваш читатель сейчас за рулем или тренируется в наушниках, вы можете не потерять его внимание, а зачитать текст голосом помощника.
- Добавить голосовое управление в приложение, чтобы сократить путь к решению задачи. Например, ваш клиент хочет повторить последний заказ. Обычно для этого нужно перейти через главное меню в личный кабинет, затем открыть список всех заказов, выбрать в нем последний заказ и нажать кнопку повтора, если она есть. Вместо этого можно добавить голосовую команду «Повтори последний заказ».
Давайте посмотрим, как Маруся справляется с подобными задачами. Все перечисленные ниже навыки вы можете протестировать сами, используя умные колонки Капсула и Капсула Мини, приложения Маруси для iOS и Android, веб-версию и суперприложение Почты Mail.ru.
Голосовой навигатор в специализированных приложениях. Кейс Hi-Chef
Hi-Chef — онлайн-сервис и мобильное приложение для любителей готовить дома. Цель — создать совершенно новый кулинарный ресурс, максимально удобный для использования на смартфонах.
Идея проекта родилась из результатов аналитики сервиса Леди Mail.ru. Создатели этого сервиса увидели стабильный рост посещаемости в разделе «Рецепты» среди мобильных пользователей год к году.
Работа с фокус-группами помогла выявить основную боль пользователей, которой до них никто системно не занимался. При готовке многие читают рецепты с мобильных телефонов, но пока вы шинкуете лук или раскатываете тесто, экран гаснет. А значит, вам нужно или включить его грязными руками, или обмотать гаджет пищевой пленкой.
Создатели приложения сконцентрировались на этих двух моментах и придумали следующее решение. Чтобы упростить доступ к главной информации, они переупаковали доступные в базе рецепты в формат сторис с коротким текстом, который зачитывается голосом Маруси.
Решение также доступно как навык Маруси: можно попросить ее найти нужный рецепт, а затем просто следовать шагам, которые умная колонка или смартфон будет зачитывать. При этом можно точно так же перемещаться между шагами, просить снова прочитать текст текущего шага и т.д.
Результат — 600 000 пользователей на второй месяц публикации приложения.
Голосовой заказ продуктов у популярного бренда. Кейс Макдоналдс
Для Маруси был разработан навык заказа из меню McDonalds. Приложение показывает список блюд, а клиент зачитывает названия тех из них, которые хочет заказать. Затем приложение передает ресторану заказ, а курьер его привозит.
Поскольку названия вроде «макфлурри» и «чикен макнаггетс» редко произносятся в обычной речи, на раннем этапе разработки система распознавания часто неправильно понимала запрос. И здесь для бренда сыграла свою роль возможность напрямую поработать с разработчиками Маруси. Мы проанализировали тысячи примеров того, как реальные пользователи произносят блюда из меню, а затем обучили модель на этих данных. На текущий момент ошибка составляет уже лишь 2—3% вместо 40—45%, а бренд получил новый канал приема заказов.
Брендированный голосовой навык для доступа к экспертным статьям. Кейс Purina
Весной этого года Mail.ru Group вместе с брендом Purina разработали навык «Питомцы» для Маруси, который расширяет возможности платформы Питомцы Mail.ru. С помощью навыка хозяева домашних животных получают простой доступ к полезным материалам на портале. Это статьи и комментарии ветеринаров, кинологов, зоопсихологов и других экспертов.
Задача навыка — создать новый пользовательский опыт и дополнительную ценность на базе существующего контента площадки. Для бренда же это дополнительный инструмент последовательного продвижения своей инициативы по развитию культуры осознанного и ответственного отношения к домашним животным.
Поисковый алгоритм подбирает самый релевантный ответ на вопрос, при этом навык Маруси позволяет «провалиться» в тему, подбирая дополнительные материалы для пользователя.
Тестирование показало, что порядка 30% диалогов — серьезные вопросы, связанные со здоровьем домашних животных. Хозяева, которым нужна экспертная помощь по этой теме, глубже погружаются во взаимодействие с навыком, и средняя глубина вовлечения в диалог оказывается близкой к показателям встроенных навыков Маруси. Иными словами, при правильном проектировании навыка бизнес может получить действительно вовлекающий инструмент.
Зачем нужно облачное решение
Вплотную поработав с брендами, мы увидели, что Маруся уже сейчас может решать актуальные задачи пользователей и положительно влиять на клиентский сервис. Следующий логический шаг — сделать лежащие в ее основе технологии максимально доступными для бизнеса. Поэтому мы решили запустить новый сервис Voice, он работает на облачной платформе Mail.ru Cloud Solutions.
Здесь стоит отметить, что у облачных технологий распознавания и синтеза речи есть ряд преимуществ перед Self-Hosted решениями. Вот главные из них:
- Простота интеграции. Как разработчик вы получаете простой единый API и можете использовать любой удобный вам язык программирования. По сути, чтобы получить готовое решение, достаточно положить на сервис бизнес-логику.
- Новые возможности для бизнеса. Мы непрерывно совершенствуем существующие и добавляем новые возможности для развития бизнеса. Облако делает новые функции доступными пользователям сразу, без необходимости обновлять и настраивать сервис.
- Простая система тарификации по факту использования. Вы платите только фиксированную стоимость за единицу озвученного текста и длительность аудиозаписи, текст в которой надо распознать.
Кратко о сочетании технологий ASR и TTS и облачных вычислений
- Качество распознавания и синтеза речи в целом выросло до уровня, когда пользоваться им стало комфортно. Исследование PricewaterhouseCoopers говорит, что уже более половины пользователей мобильников отдают устройствам голосовые команды.
Если выявить действительно важные для клиентов темы и правильно спроектировать диалоги, можно создать навык с высокой степенью вовлечения пользователя.
- Преимущество облачных технологий распознавания и синтеза речи — мгновенная доступность улучшений для конечных пользователей и разработчиков интеграционных решений.
Ненавижу роботов-автоответчиков, якобы ведущих диалог. Складывается ощущение, что тебя пытаются за дурака держать, что неприятно и огорчает. А в фирмы где этот робот особо навязчивый и не даёт варианта соединения с оператором второй раз обращаться уже не хочется.
Цена услуги робота-автоответчика, или предоставляется только функционал распознавания и воспроизведения речи?