«Робот? Давай, до свидания!»: как голосовые роботы убивают конверсию звонков и почему клонированный голос — тренд
Голосовые роботы стали обыденностью — их часто используют для бизнеса и в личных целях. Но по нашему опыту и многочисленным отзывам, голосовые роботы — признак отчаяния.
Почему? Да потому что люди не хотят отвечать на вопросы условного R2-D2 из «Звездных войн» — не верят, что он решит их проблему. Поэтому скоро ни одна приличная компания не будет использовать роботов в том виде, в котором они сейчас существуют.
Я Роман Рабочий, создатель виртуального голосового помощника Маши. Расскажу, как в свое время столкнулся с голосовыми роботами, почему открестился от идеи их использования и к чему в итоге пришел в своем продукте.
Знакомьтесь — робот-секретарь Маша
Маша — телефонный робот-секретарь, голос, фразы и интонации которого максимально похожи на человеческие. Технически Маша — это бот в Телеграме, который принимает входящие звонки и разговаривает с человеком, чтобы выяснить, зачем он звонит. Маша берет трубку, если телефон недоступен или занят, записывает звонок и вместе с текстовой расшифровкой разговора скидывает аудио в чат в Телеграме.
Подробнее о том, как я создал Машу — читайте в моей первой статье.
Сейчас расскажу, как мне удалось достичь такого эффекта и почему практически все роботы на рынке — полный отстой.
От жены до робота с предзаписанными фразами: как менялась Маша
Для создания Маши было множество личных предпосылок — часто я просто физически не мог ответить на бесконечный поток звонков: был вне зоны доступа, за рулем, занят или просто не хотел ни с кем разговаривать. При этом понять, что хотели звонившие, было невозможно — приходилось каждому перезванивать и спрашивать. Такой вариант досуга меня не устраивал, и я решил сделать своего виртуального голосового помощника.
Первой «версией» Маши была моя жена Юля — я просто переадресовывал ей звонки, а собранный мной Телеграм-бот записывал разговор и присылал мне расшифровку. Но уже скоро я задумал запустить продукт для всех, и такой вариант явно не подходил: Юля вряд ли согласилась бы отвечать на тысячи звонков в день:)
В результате появилось три варианта реализации Маши:
- Робот от Google. У Google есть робот, который с помощью голосовых технологий понимает и генерирует русскую речь, исходя из контекста. Казалось, что это выход из ситуации. Но я быстро понял, что когда люди слышат металлический голос робота, сразу кладут трубку — часто общение заканчивалось после первой же реплики Маши. Робот от Google начал сводить на нет все усилия, вложенные в создание Маши. От робота мы отказались.
- Колл-центр. Работа с колл-центром — самый очевидный вариант. Как и с женой, с операторами люди разговаривали охотно, и можно было получить достаточно информации о целях звонка. Удобно, но очень дорого. И чем больше звонков, тем дороже. Такой вариант не подходил.
- Робот с предварительно записанными фразами жены. Вариант оказался крутым и рабочим — люди не сразу понимали, что общаются с роботом, а когда понимали — все равно отвечали на типовые вопросы. Вероятно, важную роль сыграла модель общения «человек-человек» — все-таки слышать голос девушки, хоть и в записи, приятнее, чем звуки, генерируемые роботом.
Но и вариант с записями оказался неидеальным — не хватало персонализации. Например, у нас не было заготовок под редкие имена вроде Ашот Абдурахманович — Маша не могла сказать: «Здравствуйте, Ашот Абдурахманович занят. Что ему передать?» или «Хорошо. Я передам Ашоту Абдурахмановичу, что вы звонили». В итоге часть пользователей, особенно не в России, не могла пользоваться Машей.
Я понимал, что голосовой помощник требует доработки, использования новых подходов и даже технологий.
Жалкие 7%: как я тестировал распиаренного голосового робота
Как раз в тот момент, когда я искал способ сделать Машу лучше, на рынке появился голосовой помощник от одного из банков. Надо отдать должное — рекламная кампания была выстроена с максимальным напором: о помощнике говорили по телевизору, писали в интернете, рекламу размещали на билбордах и в метро. Складывалось ощущение, что продукт, который по возможностям схож с Машей, может разговорить даже немого.
Тогда я решил протестировать этого голосового помощника. Но простой переадресации личных звонков мне было недостаточно — я хотел провести глубокое исследование и понять, сколько людей реально готовы общаться с роботом.
Для этого я завел несколько мобильных номеров и запустил приманку для злоумышленников. Дело в том, что я хотел собрать статистику в разрезе тысячи звонков. А быстро найти такое количество желающих мне позвонить можно было только из числа мошенников и холодных обзвонов разных компаний.
Тактика себя оправдала — после попадания в одну из баз мошенников на один из номеров обвалился шквал звонков. Всего за неделю количество звонков превысило несколько тысяч — на каждый из них отвечал упомянутый выше помощник от банка.
В итоге у нас получился большой массив данных, который мы загрузили в нейронную сеть: отсортировали людей и роботов, которых сразу убрали из подборки, и проанализировали действия людей.
То есть 93 человека из 100 сбрасывают, как только слышат в ответе металлические нотки.
Так что если вы используете такого помощника, то имеете все шансы потерять 93% клиентов еще в момент первого контакта. Хотя с такими показателями робота «помощником» точно не назовешь.
Почему мы решили делать клон голоса и что из этого вышло
По итогу проверки на достаточно большой выборке (более 1 млн звонков) стало понятно, что активно продвигаемая сейчас технология голосовых роботов без мало-мальски «живых» ноток в голосе — мусор. Если голосовой помощник разговаривает как Терминатор, говорит типовыми фразами и не может уловить контекст диалога — он не помощник, а вредитель. Показатель в 7% эффективности самого рекламируемого голосового секретаря это подчеркивал.
Поэтому я решил создать на базе существующей Маши с предзаписанными фразами обновленный продукт — помощника, который сможет произносить любые, в том числе нетипичные фразы. Тогда как минимум проблема персонализации при произношении редких имен решится полностью.
На этом этапе возникла проблема: для генерирования и произношения нетипичных фраз нужен клон голоса, который сможет воссоздать все параметры (интонация, плавность, громкость и т.д.) голоса моей жены, который уже был основой Маши и с которым хорошо взаимодействуют звонящие.
Сначала созданием клона наша команда занялась самостоятельно. Но меня постоянно не устраивало качество, процесс разработки затягивался. К счастью на рынке начали появляться продукты вроде «уникального голоса бренда» от крупных ИТ-компаний, использующих передовые технологии распознавания и синтеза речи.
Мы решили обратиться к ним за помощью.
Первая компания дала понять, что для реализации задумки надо заплатить 10 млн рублей. С учетом стоимости подписки на Машу такие вложения были абсолютно нерентабельны. Да и в целом такие инвестиции казались (и кажутся до сих пор) просто безумными.
Повезло, что у меня были знакомые в SberDevices. Они создают идеи, разрабатывают IT-продукты, занимаются прототипированием и конструированием. Например, на основе речевых технологий они сделали семейство виртуальных ассистентов «Салют». Коллеги из SberDevices заинтересовались моей идеей клонирования голоса, мы обсудили все детали и согласовали условия сотрудничества.
Для создания клона голоса нам потребовалось всего три часа работы в студии. На основе сгенерированного, начитанного словаря, мы с командой SberDevices сделали полноценный, крутой клон голоса.
Причем он настолько реалистичный, что даже близкие иногда не могут отличить запись от речи живого человека. Послушайте, как звучит клон голоса:
Как сейчас работает Маша-секретарь
В настоящее время Маша работает в комбинированном режиме. Она продолжает использовать предзаписанные реплики, но когда надо произнести то, чего нет в скриптах, например, сложные имена или оригинальные приветствия, задействует речевые технологии и клонированным голосом произносит нужные фразы. Скоро в Маше можно будет настроить не только приветствие, но и любую фразу.
Сейчас Маша:
- отвечает приятным женским голосом живого человека, а не робота;
- понимает контекст диалога и поддерживает общение в соответствии со сценариями;
- может выходить за рамки скриптов и на этапе персонализации под конкретного клиента с помощью технологий и клонированного голоса произносить реплики, которых нет в «заготовках».
Что в итоге
- Роботы-помощники без возможности персонализации — источник печали. Маша — один из немногих помощников, который общается НЕроботизированным голосом и почти не ограничен рамками записанных скриптов.
Протестировать Машу в действии можно бесплатно. Для этого достаточно зайти на сайт и парой кликов подключить помощника. После тестов буду благодарен за обратную связь.
- Подписывайтесь на меня на vc.ru. Совсем скоро я выложу историю создания еще одного продукта — планировщика онлайн-встреч. Будет еще интереснее.
Роман, я подозревала, что вы обязательно про Машу скажете, но ждала хоть каких-то цифр по конверсии убийств холодных звонков роботами. Ни одной цифры(
Будут цифры;) Я готовлю срыв покровов. Напишу статью про то кто у нас главный спамер на Руси )))
О! Если нужна помощь с вычиткой и редактированием - обращайтесь. Помогу с удовольствием.
придётся Машу переименовать в Олю
А она Оля?
ого. а почему так?
Это VC так отображает некоторых комментаторов если ты незалогинен на сайт...
Уверен, это все таки Оля...
Хотя я залогинен, иногда так показывает, может полностью не прогружается, а только часть информаци. Сейчас точно - Оля Васькова.
Иногда очень странные ники.
Я с телефона иногда читаю vc, незалогинен когда. Вижу прямо набор бреда в никах...
хаха, вот незалогинен когда...
Звучит угрожающе. Конечный Крюк - как Крюгер.
Ну такое да...
Кароч, с Олей что то не так.... ))
Может быть это так, когда пользователь в настройках скрывает свой аккаунт.
У plus есть такая возможность.
.
И это будет почти человек, т.к. не просто Олю, а Олю Васюкову.