Может ли голосовой бот узнать пол ваших клиентов за 1 секунду общения по телефону? (Спойлер — может на 98,4%)

Может ли голосовой бот узнать пол ваших клиентов за 1 секунду общения по телефону? (Спойлер — может на 98,4%)

Меня зовут Олег Юшков, я представитель платформы TWIN. Мы уже писали здесь статью о синтезе речи и применении наших голосовых и чат-ботов в логистике. Сейчас мы решили поделиться нашим опытом и применением технологии определения пола по телефону в реальном времени.

За последние полгода к нам несколько раз поступали запросы от клиентов о возможности определения пола во время телефонного диалога бота и человека. Для оператора контакт-центра это, очевидно, простая задача. Да, бывают люди с разными голосами и разным темпераментом, но все же для человека отличить мужчину от женщины и негативно настроенного человека от позитивно настроенного не составит большого труда. Для бота это уже сложнее.

В каких ситуациях возникает необходимость определения пола?

Что делать, когды вы звоните своему клиенту женского пола, используя голосового бота, отвечает мужчина, а вы общаетесь как с женщиной и наоборот? Для тех кто с этим сталкивался это звучит как минимум смешно. Люди начинают объясняться, пытаются поправить бота и изменить манеру обращения, но для бота это становится нестандартным поведением, и в этом случае проще перевести на оператора.

На практике это звучит примерно так:

Задача

Для клиентов нашей целью было снизить процент некорректных звонков и снизить процент переводов и нестандартного поведения.

Выгоды для клиента:

1. Сократить количество переводов звонков на оператора

2. Повысить качество общения бота

3. Может быть использовано для входящих звонков

Для себя мы поставили такую задачу: разработать модуль позволяющий с высокой точностью распознавать пол абонента в режиме реального времени по аудиозаписи длительностью не более 1 секунды.

Решение

Итак, первое что мы сделали, это собрали аудиозаписи разговоров с реальными людьми из нескольких call-центров. На основе этих записей обучили нейросеть. На первых тестах точность распознавания пола достигала 70%, это было ниже плановых значений. В течении следующих 2-х месяцев мы корректировали модуль и достигли следующих значений в точности определения пола:

- для аудиозаписей, длиной от 1 секунды — 98.4%.

- для аудиозаписей, длиной 0.5 секунды — около 90%

- для аудиозаписей, длиной 0.1 секунды — около 70-80%

Модуль распознаёт только мужской и женский голос, детский голос и шёпот распознаётся некорректно (на нашей практике количество разговоров с такими голосами близко к нулю и, соответственно, не выгодно дорабатывать модуль для этих ситуаций).

Когда стало понятно, что 1 секунды аудиозаписи достаточно для определения пола, перед нами встала вторая задача — сделать так, чтобы все это работало во время телефонного разговора в режиме реального времени.

Как это реализовано в режиме реального времени

В самом начале поток с речью клиента анализируется детектором голосовой активности. Как только детектор определил наличие голоса — первые 0,1-1 секунды отправляются в модуль распознавания пола человека по его речи. Если модуль распознал пол с уверенностью выше 70%, то этот ответ принимается и дальше используется в диалоге. Если уверенность распознавания ниже либо модулю не удалось распознать пол — ему отправляется следующие 0,1-1 секунда, содержащие голос клиента. Так повторяется до тех пор, пока модуль не даст уверенный ответ.

Здесь уже прикреплю аудиозапись с включённым модулем распознавания пола, приведённый ранее пример звучит уже иначе:

Как слышно из аудиозаписи, модуль определил пол после слов «Здравствуйте” и передал информацию в скрипт, после этого уже изменился вопрос с «Это вы? ” на “Я могу услышать?» и уточнил “Вы знакомы, верно?».

Заключение

Модуль разрабатывался в первую очередь для уменьшения вероятности неправильной идентификации клиента, но также его можно использовать для составления отчетов, подсчета метрик и построения графиков, но это уже несколько легче, так как нет необходимости в режиме реального времени анализировать информацию и данные можно обработать уже после завершения разговора.

Данный модуль доступен в нашем редакторе скриптов и может использоваться в любом месте, как с самого начала разговора, так и после определенного элемента скрипта.

В следующей статье мы расскажем о возможности бота определять эмоции человека в телефонном разговоре.

Если у вас есть идеи о том, как еще можно применить данную технологию, то напишите в комментарии, обсудим.

22
5 комментариев

Спойлер: не может, 99% перестали поднимать трубку на звонки ботов с неизвестных номеров

2
Ответить

надо работать над его методикой общения, но все равно обычного человека пока бот заменить не готов само собой, хотя он лучше некоторых людей которые названивают с навязчивым)))

1
Ответить

Да, спам это проблема и для нас. Спам-обзвоны сильно портят рынок, т.к. бот воспринимается как спам в любом случае. Мы как раз и работаем над тем, чтобы бот воспринимался не как спам, а как полезный инструмент.

Ответить

Ну может и может.

Ответить

😂, чот меня вынесло с такого запикивания названия компании...

Ответить