От Кортаны к Левитану: боты говорят всё лучше

Долгое время бизнесу приходилось выбирать между качеством и экономичностью телефонных сервисов. Для подготовки профессиональных и неутомимых операторов слишком высоки были издержки и затраты времени. Напротив, низкоквалифицированный персонал вместо расшивания проблем с клиентами запросто мог создавать новые – нарастание недовольства некомпетентным решением запросов, падение лояльности и доверия к бренду.

Всё изменилось с приходом ИТ в мир коммуникаций. Интеллектуальные технологии распознавания и синтеза речи помогли перезапустить привычное голосовое общение в новом цифровом формате.

Голосовые сервисы начинались с простых аудиозаписей – всем, например, знакома голосовая почта на телефонах. Затем появились первые попытки синтеза речи, но они звучали очень неестественно. А сегодня диалоги с ботами уже сложно отличить от живой речи.

Вот технологии, которые помогли роботам «заговорить по-человечески»:

системы распознавания голоса
распознавание эмоций по речи
синтез голоса с настройкой эмоциональности
большие данные (накопленные огромные массивы информации) и алгоритмы их обработки
самообучающиеся нейросети

К примеру, сейчас в год только на изучение разговоров клиентов с операторами call-центров тратится около 1,5 млрд долларов — столько же, сколько раньше на всю речевую аналитику.

Только факты:
Для распознавания человеческого языка машиной английская компания OpenAI создала технологию NLU – Natural language understanding (распознавание естественного языка). Она привела к взрывному росту голосовых ИИ. Только за 2020 год аудитория пользователей виртуальных ассистентов в России выросла до 52 млн человек. А по прогнозам к 2024 году число голосовых устройств сравняется с населением Земли.

Голосовые роботы нового поколения – например, твины – моделируют тембр речи, микро-паузы, рисунок фраз, подстраивают лексику под необходимый эмоциональный фон. Тем самым создаётся полный эффект общения с живым человеком.

Области применения таких ботов безграничны.

Автоматизированные системы проводят интервью с кандидатами на трудоустройство, выполняют функции технической поддержки, отвечают на вопросы и ведут полноценный разговор. Если робот сам не предупредит о том, что вы говорите не с человеком — догадаться об этом будет очень сложно. Проверьте, сумеете ли Вы?

Ключевым навыком для результативности диалога с клиентом является умение системы распознать намерения, потребности, запросы собеседника. При этом преодолеть такие трудности естественной речи как её избыточность или недостаточность (смысл не высказан, но подразумевается), замусоренность междометиями и вводными словами, неоднозначность выражений.

Профессор на лекции:
– В русском языке двойное отрицание означает отрицание. В английском языке двойное отрицание означает утверждение. Но нет ни одного языка, в котором двойное утверждение означало бы отрицание…
Студент на заднем ряду:
– Ну да, конечно…

В компании TWIN мы используем собственную ИИ-технологию анализа. Она позволяет выявлять основные намерения и с высокой вероятностью (выше 96%) понимать суть того, что хочет сказать клиент. Например, фразы «вы знаете, мы переехали», «мы, кстати, переехали», «мы переехали, знаете ли» обычная технология на базе ключевых слов поймёт, как разные. Значит, их во всех вариациях надо заложить в базу. А нейронной сети твина достаточно заложить один пример такой фразы. Все остальные фразы с тем же смыслом система сама отнесет к нужному намерению.

Тем самым время обучения платформы сокращается почти в 7 раз.

Пример из жизни:
В проекте для компании 2Gis мы использовали твина с этой технологией. В итоге число результативных диалогов – тех, которые заканчиваются полной сверкой карточки предприятия – возросло до 87%.

По прогнозам экспертов, количество и качество голосовых интерфейсов и сервисов будет расти до тех пор, пока на них не перейдут все системы массового обслуживания. Далее последует тонкая настройка и развитие эмоциональности речи ботов. На этом персонификация не остановится. Она пойдёт по пути развития образов и личностей (аватаров) – это сделает контакт с ботом еще более реалистичным.

Кстати, потребность в высококвалифицированных операторах, умеющих разрешить проблему клиента компетентно и с сочувствием, никуда не пропадёт. Их труд станет менее рутинным и более творческим. Ведь именно на примерах их работы будут учиться новые поколения ботов.

#персонификация #распознавание_речи #синтез_речи #справочники_каталоги #твин #твин_боты

От Кортаны к Левитану: боты говорят всё лучше

Эволюция голосовых сервисов

Что хочешь, дорогой?

Сплошное твинство