{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

«Робот? Давай, до свидания!»: как голосовые роботы убивают конверсию звонков и почему клонированный голос — тренд

Голосовые роботы стали обыденностью — их часто используют для бизнеса и в личных целях. Но по нашему опыту и многочисленным отзывам, голосовые роботы — признак отчаяния.

Почему? Да потому что люди не хотят отвечать на вопросы условного R2-D2 из «Звездных войн» — не верят, что он решит их проблему. Поэтому скоро ни одна приличная компания не будет использовать роботов в том виде, в котором они сейчас существуют.

Я Роман Рабочий, создатель виртуального голосового помощника Маши. Расскажу, как в свое время столкнулся с голосовыми роботами, почему открестился от идеи их использования и к чему в итоге пришел в своем продукте.

Знакомьтесь — робот-секретарь Маша

Маша — телефонный робот-секретарь, голос, фразы и интонации которого максимально похожи на человеческие. Технически Маша — это бот в Телеграме, который принимает входящие звонки и разговаривает с человеком, чтобы выяснить, зачем он звонит. Маша берет трубку, если телефон недоступен или занят, записывает звонок и вместе с текстовой расшифровкой разговора скидывает аудио в чат в Телеграме.

Маша отвечает на звонок фразой «Алло, здравствуйте», а дальше поддерживает диалог и выясняет, кто и зачем звонит.

Подробнее о том, как я создал Машу — читайте в моей первой статье.

Главная фишка Маши — она очень похожа на реальную девушку. Люди с ней общаются, а не кладут трубку, как после ответа робота.

Сейчас расскажу, как мне удалось достичь такого эффекта и почему практически все роботы на рынке — полный отстой.

От жены до робота с предзаписанными фразами: как менялась Маша

Для создания Маши было множество личных предпосылок — часто я просто физически не мог ответить на бесконечный поток звонков: был вне зоны доступа, за рулем, занят или просто не хотел ни с кем разговаривать. При этом понять, что хотели звонившие, было невозможно — приходилось каждому перезванивать и спрашивать. Такой вариант досуга меня не устраивал, и я решил сделать своего виртуального голосового помощника.

Первой «версией» Маши была моя жена Юля — я просто переадресовывал ей звонки, а собранный мной Телеграм-бот записывал разговор и присылал мне расшифровку. Но уже скоро я задумал запустить продукт для всех, и такой вариант явно не подходил: Юля вряд ли согласилась бы отвечать на тысячи звонков в день:)

В результате появилось три варианта реализации Маши:

  • Робот от Google. У Google есть робот, который с помощью голосовых технологий понимает и генерирует русскую речь, исходя из контекста. Казалось, что это выход из ситуации. Но я быстро понял, что когда люди слышат металлический голос робота, сразу кладут трубку — часто общение заканчивалось после первой же реплики Маши. Робот от Google начал сводить на нет все усилия, вложенные в создание Маши. От робота мы отказались.
  • Колл-центр. Работа с колл-центром — самый очевидный вариант. Как и с женой, с операторами люди разговаривали охотно, и можно было получить достаточно информации о целях звонка. Удобно, но очень дорого. И чем больше звонков, тем дороже. Такой вариант не подходил.
  • Робот с предварительно записанными фразами жены. Вариант оказался крутым и рабочим — люди не сразу понимали, что общаются с роботом, а когда понимали — все равно отвечали на типовые вопросы. Вероятно, важную роль сыграла модель общения «человек-человек» — все-таки слышать голос девушки, хоть и в записи, приятнее, чем звуки, генерируемые роботом.

Но и вариант с записями оказался неидеальным — не хватало персонализации. Например, у нас не было заготовок под редкие имена вроде Ашот Абдурахманович — Маша не могла сказать: «Здравствуйте, Ашот Абдурахманович занят. Что ему передать?» или «Хорошо. Я передам Ашоту Абдурахмановичу, что вы звонили». В итоге часть пользователей, особенно не в России, не могла пользоваться Машей.

Я понимал, что голосовой помощник требует доработки, использования новых подходов и даже технологий.

Жалкие 7%: как я тестировал распиаренного голосового робота

Как раз в тот момент, когда я искал способ сделать Машу лучше, на рынке появился голосовой помощник от одного из банков. Надо отдать должное — рекламная кампания была выстроена с максимальным напором: о помощнике говорили по телевизору, писали в интернете, рекламу размещали на билбордах и в метро. Складывалось ощущение, что продукт, который по возможностям схож с Машей, может разговорить даже немого.

Тогда я решил протестировать этого голосового помощника. Но простой переадресации личных звонков мне было недостаточно — я хотел провести глубокое исследование и понять, сколько людей реально готовы общаться с роботом.

Для этого я завел несколько мобильных номеров и запустил приманку для злоумышленников. Дело в том, что я хотел собрать статистику в разрезе тысячи звонков. А быстро найти такое количество желающих мне позвонить можно было только из числа мошенников и холодных обзвонов разных компаний.

Тактика себя оправдала — после попадания в одну из баз мошенников на один из номеров обвалился шквал звонков. Всего за неделю количество звонков превысило несколько тысяч — на каждый из них отвечал упомянутый выше помощник от банка.

В итоге у нас получился большой массив данных, который мы загрузили в нейронную сеть: отсортировали людей и роботов, которых сразу убрали из подборки, и проанализировали действия людей.

Результат оказался более, чем печальным — только 7% людей разговаривали с голосовым роботом-помощником.

То есть 93 человека из 100 сбрасывают, как только слышат в ответе металлические нотки.

Так что если вы используете такого помощника, то имеете все шансы потерять 93% клиентов еще в момент первого контакта. Хотя с такими показателями робота «помощником» точно не назовешь.

Почему мы решили делать клон голоса и что из этого вышло

По итогу проверки на достаточно большой выборке (более 1 млн звонков) стало понятно, что активно продвигаемая сейчас технология голосовых роботов без мало-мальски «живых» ноток в голосе — мусор. Если голосовой помощник разговаривает как Терминатор, говорит типовыми фразами и не может уловить контекст диалога — он не помощник, а вредитель. Показатель в 7% эффективности самого рекламируемого голосового секретаря это подчеркивал.

Стало очевидно, что концепция применения помощников, в которых люди мгновенно распознают робота — путь в никуда.

Поэтому я решил создать на базе существующей Маши с предзаписанными фразами обновленный продукт — помощника, который сможет произносить любые, в том числе нетипичные фразы. Тогда как минимум проблема персонализации при произношении редких имен решится полностью.

На этом этапе возникла проблема: для генерирования и произношения нетипичных фраз нужен клон голоса, который сможет воссоздать все параметры (интонация, плавность, громкость и т.д.) голоса моей жены, который уже был основой Маши и с которым хорошо взаимодействуют звонящие.

Сначала созданием клона наша команда занялась самостоятельно. Но меня постоянно не устраивало качество, процесс разработки затягивался. К счастью на рынке начали появляться продукты вроде «уникального голоса бренда» от крупных ИТ-компаний, использующих передовые технологии распознавания и синтеза речи.

Мы решили обратиться к ним за помощью.

Первая компания дала понять, что для реализации задумки надо заплатить 10 млн рублей. С учетом стоимости подписки на Машу такие вложения были абсолютно нерентабельны. Да и в целом такие инвестиции казались (и кажутся до сих пор) просто безумными.

Повезло, что у меня были знакомые в SberDevices. Они создают идеи, разрабатывают IT-продукты, занимаются прототипированием и конструированием. Например, на основе речевых технологий они сделали семейство виртуальных ассистентов «Салют». Коллеги из SberDevices заинтересовались моей идеей клонирования голоса, мы обсудили все детали и согласовали условия сотрудничества.

Для создания клона голоса нам потребовалось всего три часа работы в студии. На основе сгенерированного, начитанного словаря, мы с командой SberDevices сделали полноценный, крутой клон голоса.

Причем он настолько реалистичный, что даже близкие иногда не могут отличить запись от речи живого человека. Послушайте, как звучит клон голоса:

Как сейчас работает Маша-секретарь

В настоящее время Маша работает в комбинированном режиме. Она продолжает использовать предзаписанные реплики, но когда надо произнести то, чего нет в скриптах, например, сложные имена или оригинальные приветствия, задействует речевые технологии и клонированным голосом произносит нужные фразы. Скоро в Маше можно будет настроить не только приветствие, но и любую фразу.

В итоге мы сделали Машу чем-то вроде «серебрянной пули» в сфере голосовых помощников.

Сейчас Маша:

  • отвечает приятным женским голосом живого человека, а не робота;
  • понимает контекст диалога и поддерживает общение в соответствии со сценариями;
  • может выходить за рамки скриптов и на этапе персонализации под конкретного клиента с помощью технологий и клонированного голоса произносить реплики, которых нет в «заготовках».

Что в итоге

  • Роботы-помощники без возможности персонализации — источник печали. Маша — один из немногих помощников, который общается НЕроботизированным голосом и почти не ограничен рамками записанных скриптов.
  • Протестировать Машу в действии можно бесплатно. Для этого достаточно зайти на сайт и парой кликов подключить помощника. После тестов буду благодарен за обратную связь.

  • Подписывайтесь на меня на vc.ru. Совсем скоро я выложу историю создания еще одного продукта — планировщика онлайн-встреч. Будет еще интереснее.
0
181 комментарий
Написать комментарий...
Ольга Васюкова

Роман, я подозревала, что вы обязательно про Машу скажете, но ждала хоть каких-то цифр по конверсии убийств холодных звонков роботами. Ни одной цифры(

Ответить
Развернуть ветку
Роман Рабочий
Автор

Будут цифры;) Я готовлю срыв покровов. Напишу статью про то кто у нас главный спамер на Руси )))

Ответить
Развернуть ветку
Ольга Васюкова

О! Если нужна помощь с вычиткой и редактированием - обращайтесь. Помогу с удовольствием.

Ответить
Развернуть ветку
Вы в федеральном розыске

придётся Машу переименовать в Олю

Ответить
Развернуть ветку
Стереографика - чудо иллюзии

А она Оля?

Ответить
Развернуть ветку
Вы в федеральном розыске

ого. а почему так?

Ответить
Развернуть ветку
Роман Рабочий
Автор

Это VC так отображает некоторых комментаторов если ты незалогинен на сайт...

Уверен, это все таки Оля...

Ответить
Развернуть ветку
Стереографика - чудо иллюзии

Хотя я залогинен, иногда так показывает, может полностью не прогружается, а только часть информаци. Сейчас точно - Оля Васькова.
Иногда очень странные ники.

Ответить
Развернуть ветку
Роман Рабочий
Автор

Я с телефона иногда читаю vc, незалогинен когда. Вижу прямо набор бреда в никах...

Ответить
Развернуть ветку
Роман Рабочий
Автор

хаха, вот незалогинен когда...

Ответить
Развернуть ветку
Стереографика - чудо иллюзии

Звучит угрожающе. Конечный Крюк - как Крюгер.

Ответить
Развернуть ветку
Роман Рабочий
Автор

Ну такое да...
Кароч, с Олей что то не так.... ))

Ответить
Развернуть ветку
Стереографика - чудо иллюзии

Может быть это так, когда пользователь в настройках скрывает свой аккаунт.
У plus есть такая возможность.

Ответить
Развернуть ветку
Стереографика - чудо иллюзии
Ответить
Развернуть ветку
Вы в федеральном розыске

.

Ответить
Развернуть ветку
Александр Полозов

И это будет почти человек, т.к. не просто Олю, а Олю Васюкову.

Ответить
Развернуть ветку
178 комментариев
Раскрывать всегда