Голосовой робот, с которым захотите говорить даже вы: каким он должен быть

Голосового робота хочется убить, когда нужно срочно узнать причину блокировки банковской карты, а он никак не может расслышать кодовое слово. Рамамбахарумамбуру, глухой, что ли? Сегодня большинство голосовых роботов — так себе помощники. Задают ненужные вопросы, часто не понимают ответов и говорят неприятным монотонным голосом — это снижает конверсию и вредит клиентскому сервису.

Голосовой робот, с которым захотите говорить даже вы: каким он должен быть

Меня зовут Александр Зайцев, я сооснователь платформы Dasha.ai, неотличимого от человека разговорного ИИ. Наше исследование показало, что 68,5% людей предпочтут бросить трубку, чем продолжить разговор с ботом. Но что, если они даже не поймут, что их консультирует искусственный интеллект? В статье расскажу, что должен уметь голосовой робот, чтобы клиенты получали от разговора с ним больше удовольствия и пользы.

Хорошо слышать

Когда вы слушаете, то используете не только уши, но и знания, которые у вас есть о собеседнике, предмете разговора и окружающем мире. У робота есть только звуковой сигнал, и, чтобы снизить количество переспрашиваний и ошибок, ему нужны идеальные «уши».

Голосовой робот, с которым захотите говорить даже вы: каким он должен быть

Есть несколько вещей, которые помогают улучшить слух робота.

Скорость распознавания речи влияет на качество общения: чем она выше, тем больше разговор похож на человеческий. Современные системы обрабатывают речь в режиме реального времени, что позволяет распознавать намерения абонента, пока тот продолжает говорить.

Способность подстраиваться под особенности речи говорящего. Один заикается, другой шепелявит, третий говорит с акцентом. Обычная речь полна «эканий» и «меканий», отступлений от темы, повторений. В разговоре вы просто пропустите все лишнее мимо ушей, поэтому такое же поведение должно быть смоделировано и для STT.

Фоновый шум не должен мешать распознаванию речи. Абсолютная тишина во время звонка скорее исключение, чем правило: на улице шумят машины, в торговом центре звучит музыка, дома играют дети. Фоновый шум может ухудшить распознавание, но вы всегда отличите, что именно вы слышите, голос собеседника или лай собаки. Если нейросеть, которая переводит звук в текст, будет устойчивой к таким помехам, общаться с роботом станет проще.

Эмпатия. Идеально, если робот слышит эмоции. ИИ уже учится определять эмоции человека по интонации, громкости, интенсивности и скорости речи — так же, как мы улавливаем изменение эмоционального состояния собеседника. Например, под влиянием гнева вы начинаете говорить громче, тон речи резко повышается, в ход идет обсценная лексика. Если система распознает гнев, робот сможет извиниться и сразу перевести на оператора или предложить какую-то компенсацию за неудобства, чтобы снизить негатив.

Понимать человеческую речь

Больше всего раздражает, когда робот не понимает, что ему хотят сказать: не может распознать контекст разговора, не реагирует на смену темы и продолжает шпарить по заданной программе. В результате проблема остается нерешенной, и негатив в адрес компании только растет.

Чтобы робот мог без ошибок выделить из распознанного текста смыслы (интенты) и создать правильный ответ, нужно развивать его «мозги».

Простые боты ориентируются на ключевые слова. Например, на вопрос «Вы можете уделить мне пять минут?» он ждет ответа «Да» или «Нет», чтобы дальше пойти по одному из двух сценариев.

Но что происходит, если ему отвечают «Пожалуй»? Робот переспрашивает: «Извините, я не понял, вы можете уделить мне пять минут?». И слышит в ответ: «Давай быстрее уже говори, что надо». Чувствуете, пошло раздражение?

Что уже умеют голосовые роботы, такие как Даша, чтобы быстрее понимать собеседника:

Распознавать похожие слова. Иначе может получиться так, что человек хочет записаться на прием к врачу на двенадцатое число, а из-за ошибки распознавания речи нейросеть NLU неправильно извлекает интент: «Записываю на девятнадцатое». В целом это не слишком критично, потому что сотрудник кол-центра тоже может не расслышать собеседника с первого раза, но если для него можно произнести слово по буквам, то с роботом этот номер не пройдет.

Даша распознает похожие слова и собирает из них скороговорку

Понимать смысл сказанного, даже если человек не говорит заложенного в программу ключевого слова. Есть несколько вариантов автоматического улучшения модели:

  • Робот время от времени в рандомном месте разговора спрашивает, правильно ли понял собеседника. Если да, то идет далее по скрипту. Если нет, то разговор «откатывается» на шаг назад и бот переспрашивает еще раз, и человек, скорее всего, перефразирует свой ответ. Тогда фраза пользователя, которая изначально была интерпретирована неправильно, добавляется в исключения, чтобы в будущем воспринимать ее как надо.
  • Если робот с первого раза не понял собеседника, но смог понять со второго, то первая фраза добавляется к выборке с нужным интентом, чтобы в разговоре со следующим собеседником сразу сообразить, что он имеет в виду.
  • Фразы, которые не удалось идентифицировать, робот складывает в отдельный файл. Разработчик модели их просмотрит и решит, что с ними делать.

Выделять из одной реплики все нужные посылы. Бывает, что в одной фразе человек отвечает на текущий вопрос и на несколько будущих. Например, на вопрос о том, придет ли клиент на встречу в записанное время, бот получает ответ: «Нет, не смогу, хотел бы перезаписаться на следующую неделю». Робот-робот услышит только первый интент: «Нет, не смогу». Робот-человек сразу предложит: «На следующей неделе есть свободное время во вторник и четверг. Когда вам удобно?»

Чем больше посылов способен выделить робот, тем лучше. Даше удается выделить до 10 посылов из одной фразы типа «Два вока с креветками, один сет комбо, три чизкейка и два литра морса» — разговор сокращается в разы.

Робот безошибочно выделяет интенты многокомпонентного заказа несмотря на фоновый шум и помехи

Ориентироваться в диалоге. Клиенты не всегда будут следовать определенному вами потоку разговора в рамках «вопрос-ответ». Они могут попытаться задать вопрос в середине процесса, просто захотеть дополнить или изменить задачу.

Живой оператор без проблем исправит допущенную собеседником ошибку, например, если тот на этапе озвучивания адреса доставки передумал заказывать маленькую пиццу «Четыре сыра» и захотел большую «Маргариту». У роботов еще есть с этим проблемы. Большинство из них тупо пойдет дальше по скрипту, и заказ сорвется.

Некоторые роботы уже умеют вести многоступенчатый нелинейный диалог и так же легко, как человек, возвращаются к любой точке беседы. Это позволяет им взаимодействовать с пользователями проще, быстрее и с большей пользой.

Говорить как живой человек

Когда спрашиваешь у банковского бота, как забрать новую карту, он сначала создает ответ в виде текстового файла, а потом преобразует текст в речь: «Карту можно забрать 25 ноября после 15:00 в отделении №1388 по адресу…»

Сейчас для синтеза речи используются либо предварительно записанные аудиофайлы, либо компьютерная симуляция человеческой речи (TTS). Даша — гибридная модель: она говорит словами и словосочетаниями, которые сначала были записаны диктором, а потом вручную «склеены» в предложения. Зачем «склеивать»? Диктор просто не сможет записать все вариации цифр и Ф. И. О. — это сотни тысяч фраз.

Так же, как Даша, разговаривают Siri и Алиса. Для переключения на другой голос, например чтобы Алиса стала Александром, нужен новый аудиофайл с мужским голосом, содержащий все возможные слова, которые могут понадобиться устройству для общения с пользователем.

Достаточно качественного синтеза пока нет ни у кого. Роботов сложно научить генерировать естественное звучание речи — комбинировать интонацию, тон, ударение и ритм так, как это делает человек.

Вот несколько хитростей, которые помогут создать впечатление, будто абонент разговаривает с живым оператором:

  • Говорить приятным голосом с человеческими интонациями. По нашим данным, хорошая озвучка может повысить конверсию на 1-2%. Интонация сочетает в себе три характеристики: высоту (высокий или низкий голос), громкость (громкий или тихий голос), скорость речи (быстрая или медленная). Причем в одной стране громкий и высокий голос будет считываться как агрессия, в другой — как дружелюбие.

Например, у робота Alexa 14 вариантов озвучки, чтобы в каждом регионе присутствия Amazon клиенты слышали тот голос, который они считают приятным. Большинство пользователей, в том числе в России, предпочитают спокойный женский голос: он воспринимается как более безопасный и комфортный.

  • Использовать в речи слова-паразиты. Они делают речь менее идеальной и более человечной, а заодно помогают поддерживать диалог. Чтобы показать человеку, что его внимательно слушают, робот может произнести «угу» или «м-м-м», пока собеседник говорит достаточно длинную фразу.
  • Соблюдать очередность в диалоге, но без фанатизма. Говорить и слушать одновременно трудно, поэтому мы определяем очередность в разговоре естественным образом: когда говорите вы и когда может начать говорить собеседник. Перерывы между репликами минимальны, вы перебиваете друг друга и поддакиваете.

Чтобы имитировать человека, роботу нужно отвечать очень быстро — в течение 400–600 миллисекунд после того, как закончил говорить собеседник. Робот должен уметь перебивать собеседника, если тот начал уводить тему в сторону. И наоборот, делать паузу, когда начинает говорить человек, чтобы затем среагировать на новую реплику в соответствии со скриптом.

  • Персонализировать собеседника. Если интегрировать робота с CRM-системой, то робот по номеру телефона сможет определять, кто ему звонит, какую услугу или товар покупал клиент у компании, даже спрогнозировать причину звонка. Сейчас это используют интернет-провайдеры для снижения нагрузки на техподдержку. Даша тоже может получать эту информацию и изменять свое поведение в зависимости от заложенной программы.
  • Переводить клиента на оператора до того, как клиент окончательно разозлится. Вместо того чтобы по сто раз повторять одни и те же вопросы, робот после второго же непонимания должен подключить к разговору реального сотрудника. В скрипте можно предусмотреть такую фразу: «Извините, я не смогу ответить на ваш вопрос. Подождите секунду, я переведу вас на более опытного специалиста».

Кстати, не только роботы учатся говорить по-человечески, но и люди постепенно привыкают общаться с роботами. Согласитесь, лучше попытаться решить вопрос с помощью бота, чем слушать короткие гудки на горячей линии. А тупить по скрипту может и человек. Так что если вам иногда кажется, что обучить робота будет проще и дешевле, чем некоторых операторов, то вам не кажется :)

99
7 комментариев

Когда уже разработчики перестанут сравнивать людей с роботами и пытаться играть на этом заведомо странном преимуществе. Начните уже говорить, что у нас роботы, но они офигенные, сделайте наконец привлекательной саму идею разговора с роботом и тогда все полетит и не надо будет никого убеждать.

3

Вот именно, я лучше с роботом пообщаюсь, чем с оператором, который два слова связать не может

Робот, с которым я захочу общаться, должен говорить быстро и по делу. Без всяких: «здравствуйте, вы позвонили в компанию такую-то, нажмите 1,2,3,4,5,6, повисите на линии 3 часа, большое спасибо за ожидание, мы делаем все, чтобы наш сервис был лучшим в мире, идите нахрен»

Если робот мне быстро ответит на мой вопрос или поможет решит проблему — то пусть он говорит хоть максимально неестественным голосом и не как живой человек.

1

А где такой критерий как симпатичность? Даешь няшных тянок. С ними все захотят пообщаться

1

Бесят роботы. Всегда понимаю, что это робот, даже если сильно похож на человека

Есть предположение, что потребность в роботах и операторах появляется тогда, когда основное приложение не справляется.
Т.е. это заведомо попытка исправить косяки основного канала взаимодействия и лучше бы сконцентрироваться на его улучшении.

Я не знаю что хуже, когда звонишь в регистратуру поликлиники. С одной стороны бабуля регистратор, которая ничего не понимает, с другой - робот, который тоже ни черта не понимает. В Питере вообще не дозвониться теперь в регистратуру, все перевели на единый номер и посадили туда роботов. Зачем??