«Робот? Давай, до свидания!»: как голосовые роботы убивают конверсию звонков и почему клонированный голос — тренд

Голосовые роботы стали обыденностью — их часто используют для бизнеса и в личных целях. Но по нашему опыту и многочисленным отзывам, голосовые роботы — признак отчаяния.

Почему? Да потому что люди не хотят отвечать на вопросы условного R2-D2 из «Звездных войн» — не верят, что он решит их проблему. Поэтому скоро ни одна приличная компания не будет использовать роботов в том виде, в котором они сейчас существуют.

«Робот? Давай, до свидания!»: как голосовые роботы убивают конверсию звонков и почему клонированный голос — тренд

Я Роман Рабочий, создатель виртуального голосового помощника Маши. Расскажу, как в свое время столкнулся с голосовыми роботами, почему открестился от идеи их использования и к чему в итоге пришел в своем продукте.

Знакомьтесь — робот-секретарь Маша

Маша — телефонный робот-секретарь, голос, фразы и интонации которого максимально похожи на человеческие. Технически Маша — это бот в Телеграме, который принимает входящие звонки и разговаривает с человеком, чтобы выяснить, зачем он звонит. Маша берет трубку, если телефон недоступен или занят, записывает звонок и вместе с текстовой расшифровкой разговора скидывает аудио в чат в Телеграме.

Маша отвечает на звонок фразой «Алло, здравствуйте», а дальше поддерживает диалог и выясняет, кто и зачем звонит.
Маша отвечает на звонок фразой «Алло, здравствуйте», а дальше поддерживает диалог и выясняет, кто и зачем звонит.

Подробнее о том, как я создал Машу — читайте в моей первой статье.

Главная фишка Маши — она очень похожа на реальную девушку. Люди с ней общаются, а не кладут трубку, как после ответа робота.

Сейчас расскажу, как мне удалось достичь такого эффекта и почему практически все роботы на рынке — полный отстой.

От жены до робота с предзаписанными фразами: как менялась Маша

Для создания Маши было множество личных предпосылок — часто я просто физически не мог ответить на бесконечный поток звонков: был вне зоны доступа, за рулем, занят или просто не хотел ни с кем разговаривать. При этом понять, что хотели звонившие, было невозможно — приходилось каждому перезванивать и спрашивать. Такой вариант досуга меня не устраивал, и я решил сделать своего виртуального голосового помощника.

Первой «версией» Маши была моя жена Юля — я просто переадресовывал ей звонки, а собранный мной Телеграм-бот записывал разговор и присылал мне расшифровку. Но уже скоро я задумал запустить продукт для всех, и такой вариант явно не подходил: Юля вряд ли согласилась бы отвечать на тысячи звонков в день:)

В результате появилось три варианта реализации Маши:

  • Робот от Google. У Google есть робот, который с помощью голосовых технологий понимает и генерирует русскую речь, исходя из контекста. Казалось, что это выход из ситуации. Но я быстро понял, что когда люди слышат металлический голос робота, сразу кладут трубку — часто общение заканчивалось после первой же реплики Маши. Робот от Google начал сводить на нет все усилия, вложенные в создание Маши. От робота мы отказались.
  • Колл-центр. Работа с колл-центром — самый очевидный вариант. Как и с женой, с операторами люди разговаривали охотно, и можно было получить достаточно информации о целях звонка. Удобно, но очень дорого. И чем больше звонков, тем дороже. Такой вариант не подходил.
  • Робот с предварительно записанными фразами жены. Вариант оказался крутым и рабочим — люди не сразу понимали, что общаются с роботом, а когда понимали — все равно отвечали на типовые вопросы. Вероятно, важную роль сыграла модель общения «человек-человек» — все-таки слышать голос девушки, хоть и в записи, приятнее, чем звуки, генерируемые роботом.

Но и вариант с записями оказался неидеальным — не хватало персонализации. Например, у нас не было заготовок под редкие имена вроде Ашот Абдурахманович — Маша не могла сказать: «Здравствуйте, Ашот Абдурахманович занят. Что ему передать?» или «Хорошо. Я передам Ашоту Абдурахмановичу, что вы звонили». В итоге часть пользователей, особенно не в России, не могла пользоваться Машей.

Я понимал, что голосовой помощник требует доработки, использования новых подходов и даже технологий.

Жалкие 7%: как я тестировал распиаренного голосового робота

Как раз в тот момент, когда я искал способ сделать Машу лучше, на рынке появился голосовой помощник от одного из банков. Надо отдать должное — рекламная кампания была выстроена с максимальным напором: о помощнике говорили по телевизору, писали в интернете, рекламу размещали на билбордах и в метро. Складывалось ощущение, что продукт, который по возможностям схож с Машей, может разговорить даже немого.

Тогда я решил протестировать этого голосового помощника. Но простой переадресации личных звонков мне было недостаточно — я хотел провести глубокое исследование и понять, сколько людей реально готовы общаться с роботом.

Для этого я завел несколько мобильных номеров и запустил приманку для злоумышленников. Дело в том, что я хотел собрать статистику в разрезе тысячи звонков. А быстро найти такое количество желающих мне позвонить можно было только из числа мошенников и холодных обзвонов разных компаний.

Тактика себя оправдала — после попадания в одну из баз мошенников на один из номеров обвалился шквал звонков. Всего за неделю количество звонков превысило несколько тысяч — на каждый из них отвечал упомянутый выше помощник от банка.

В итоге у нас получился большой массив данных, который мы загрузили в нейронную сеть: отсортировали людей и роботов, которых сразу убрали из подборки, и проанализировали действия людей.

Результат оказался более, чем печальным — только 7% людей разговаривали с голосовым роботом-помощником.

То есть 93 человека из 100 сбрасывают, как только слышат в ответе металлические нотки.

Так что если вы используете такого помощника, то имеете все шансы потерять 93% клиентов еще в момент первого контакта. Хотя с такими показателями робота «помощником» точно не назовешь.

Почему мы решили делать клон голоса и что из этого вышло

По итогу проверки на достаточно большой выборке (более 1 млн звонков) стало понятно, что активно продвигаемая сейчас технология голосовых роботов без мало-мальски «живых» ноток в голосе — мусор. Если голосовой помощник разговаривает как Терминатор, говорит типовыми фразами и не может уловить контекст диалога — он не помощник, а вредитель. Показатель в 7% эффективности самого рекламируемого голосового секретаря это подчеркивал.

Стало очевидно, что концепция применения помощников, в которых люди мгновенно распознают робота — путь в никуда.

Поэтому я решил создать на базе существующей Маши с предзаписанными фразами обновленный продукт — помощника, который сможет произносить любые, в том числе нетипичные фразы. Тогда как минимум проблема персонализации при произношении редких имен решится полностью.

На этом этапе возникла проблема: для генерирования и произношения нетипичных фраз нужен клон голоса, который сможет воссоздать все параметры (интонация, плавность, громкость и т.д.) голоса моей жены, который уже был основой Маши и с которым хорошо взаимодействуют звонящие.

Сначала созданием клона наша команда занялась самостоятельно. Но меня постоянно не устраивало качество, процесс разработки затягивался. К счастью на рынке начали появляться продукты вроде «уникального голоса бренда» от крупных ИТ-компаний, использующих передовые технологии распознавания и синтеза речи.

Мы решили обратиться к ним за помощью.

Первая компания дала понять, что для реализации задумки надо заплатить 10 млн рублей. С учетом стоимости подписки на Машу такие вложения были абсолютно нерентабельны. Да и в целом такие инвестиции казались (и кажутся до сих пор) просто безумными.

Повезло, что у меня были знакомые в SberDevices. Они создают идеи, разрабатывают IT-продукты, занимаются прототипированием и конструированием. Например, на основе речевых технологий они сделали семейство виртуальных ассистентов «Салют». Коллеги из SberDevices заинтересовались моей идеей клонирования голоса, мы обсудили все детали и согласовали условия сотрудничества.

Для создания клона голоса нам потребовалось всего три часа работы в студии. На основе сгенерированного, начитанного словаря, мы с командой SberDevices сделали полноценный, крутой клон голоса.

Причем он настолько реалистичный, что даже близкие иногда не могут отличить запись от речи живого человека. Послушайте, как звучит клон голоса:

Как сейчас работает Маша-секретарь

В настоящее время Маша работает в комбинированном режиме. Она продолжает использовать предзаписанные реплики, но когда надо произнести то, чего нет в скриптах, например, сложные имена или оригинальные приветствия, задействует речевые технологии и клонированным голосом произносит нужные фразы. Скоро в Маше можно будет настроить не только приветствие, но и любую фразу.

В итоге мы сделали Машу чем-то вроде «серебрянной пули» в сфере голосовых помощников.

Сейчас Маша:

  • отвечает приятным женским голосом живого человека, а не робота;
  • понимает контекст диалога и поддерживает общение в соответствии со сценариями;
  • может выходить за рамки скриптов и на этапе персонализации под конкретного клиента с помощью технологий и клонированного голоса произносить реплики, которых нет в «заготовках».

Что в итоге

  • Роботы-помощники без возможности персонализации — источник печали. Маша — один из немногих помощников, который общается НЕроботизированным голосом и почти не ограничен рамками записанных скриптов.
  • Протестировать Машу в действии можно бесплатно. Для этого достаточно зайти на сайт и парой кликов подключить помощника. После тестов буду благодарен за обратную связь.

  • Подписывайтесь на меня на vc.ru. Совсем скоро я выложу историю создания еще одного продукта — планировщика онлайн-встреч. Будет еще интереснее.
91
180 комментариев

Пользуюсь Машей уже год как, офигенная тема. Случайное приветствие - ракета. Пользовательское приветствие - бомба.
Особенно классно работает в связке с айфоном, где можно настроить, что только люди из списка контактов смогут вам позвонить, остальные уйдут на помощника. И киллер-фича этой связки, если вы кому-то звонили, то он перезвонит вам напрямую, даже если вы не заносили телефон в список контактов.
Правда, в век интернет магазинов и всяких доставок еды, ей порой сложно договориться. Было бы прикольно, вместо "я ничего об этом не знаю", говорить при наличии слова доставка какую-то пользовательскую или стандартную фразу, типа, "оставьте у двери".

5
Ответить

Просто адски бесят эти попытки закоса под человека. Почему сразу не сказать "вам звонит робот, я умею то и это, а вот так я не умею, если вам нужно именно оно, то зовите человека такой-то командой". Я бы тогда может и попробовал с роботом пообщаться. А это знакомство которое начинается с наебки, никуда не идёт.

45
Ответить

Ойй, соглашусь с вами)) Тоже раздражает тот факт, что тот, с кем ты ведёшь диалог позже оказывается просто роботом

10
Ответить

"знакомство которое начинается с наебки"

Любое знакомство в Tinder

3
Ответить

Особенно стандартное в скрипте «ало, связь плохая, вас плохо слышно» - и после этого возврат на шаг назад у робота, когда не смог сразу его определить.

1
Ответить

А можно просто не звонить? Неужели непонятно, что таки звонки не ждут, и они обычно в самое неподходящее время?

Если хочется связаться, то мессенджер — чтобы удобно было забанить ненужный диалог с вами (:

37
Ответить