Как анализировать до 100% звонков от ваших клиентов, не раздувая бюджет

Привет! Меня зовут Никита Ткачев, в Yandex.Cloud я занимаюсь развитием ML-сервисов. В этой статье расскажу, как для речевой аналитики клиентов мы совершенствуем технологии автоматического распознавания речи, которые позволяют нашим пользователям транскрибировать звонок с минимальной задержкой и с точностью до 97%.

Как анализировать до 100% звонков от ваших клиентов, не раздувая бюджет

Еще раз о речевой аналитике

Суть речевой аналитики – оценка аудио по параметрам, которые напрямую влияют на результат работы компании. Такими параметрами могут быть, например, наличие слов-паразитов (“короче”, “типа”) или следование скрипту продаж. Анализ может быть организован с помощью поиска по ключевым словам из подготовленных списков выражений или словарей или оценки звонков по таким параметрам, как активность по дням недели или лексике клиентов.

Речевую аналитику сегодня могут использовать сразу несколько подразделений компании. Например, отдел продаж контролирует следование скриптам продаж и изучает как улучшить эти скрипты на основе опыта лучших продавцов, служба поддержки оценивает знания сотрудников и их влияние на лояльность клиентов, а маркетинг – персонализирует рекламные кампании и проверяет их эффективность. По результатам анализа служба безопасности следит за отсутствием утечек информации, а контроль качества – проверяет соблюдение регламентов обслуживания и находит проблемные диалоги.

16 февраля мы проведет вебинар, посвященный возможностям речевой аналитики. Вебинар полезен всем, кому важны прозрачные и контролируемые коммуникации с клиентами. Зарегистрироваться можно здесь.

Зачем нужен ASR?

Основная проблема аналитики – стоимость работы специалистов, которые вручную прослушивают аудио. В среднем лишь 2 звонка из 100 проходят оценку качества, а про остальные компания ничего не знает. Такой подход приводит к иллюзии контроля, не позволяет оперативно реагировать на ситуацию и давать обратную связь операторам.

Автоматическое распознавание речи (ASR) позволяет увеличить долю анализируемых звонков до 20-50%, а иногда и до 100% при аналогичном бюджете. На таком объеме данных можно судить чем отличается поведение результативного сотрудника от тех, кто не достиг целевых результатов.

Пример: Сервис облачной телефонии Zadarma использует сервис Yandex SpeechKit для собственного инструмента речевой аналитики. Технология переводит записи разговоров клиентов на русском языке в текстовый формат и уже полученный текст анализируется по внутренним алгоритмам – выявляет ключевые слова из словарей, определяет скорость речи, молчание или перебивание.Доступен анализ как всего разговора, так и отдельных каналов – речи оператора или клиента. Например, можно выявить слова “не уверен”, “не смогу помочь”, “не знаю” в речи сотрудника, или упоминание конкурирующего бренда в речи клиента.

Использование ASR позволяет на порядок увеличить долю анализируемых звонков при том же бюджете. Если сейчас Zadarma в месяц распознает чуть выше 100 000 минут в месяц, то уже к концу года компания хочет выйти на отметку 1 000 000 минут распознанной речи в месяц (для русского языка).

Пример: Провайдер платежных и финансовых сервисов QIWI обрабатывает сотни тысяч звонков от клиентов. При этом самостоятельно прослушивать все звонки и находить связи между показателями (длительность звонка, среднее время ожидания клиента и тд) невозможно, поэтому QIWI потребовалось специальное техническое решение. Теперь все голосовые обращения, которые поступают в службу поддержки, записываются и передаются в Yandex.Cloud, а затем расшифровываются сервисом Yandex SpeechKit. В итоге у компании появилась возможность выделять новые темы обращений, детальнее изучать частные негативные обращения через количественные и качественные параметры.

Как обычно работает автоматическое распознавание речи?

Распознавание речи происходит в три этапа.

Первый этап. Сначала выделяются слова. Обычно их выделяет акустическая модель – отдельная нейросеть, проводящая грубую оценку произнесенного текста по входному аудио. В результате её работы для каждого распознанного слова формируется несколько гипотез транскрибации.

Второй этап. Эти гипотезы проверяются с помощью выбранной языковой модели. Языковая модель распознает слова исходя из знаний о конкретном языке. Используя массивы данных, она проверяет, насколько новое слово согласуется с распознанными ранее.

Третий этап. Затем полученный текст проходит окончательную обработку, например, расставляются знаки препинания, а числительные записываются с помощью цифр.

У разделения распознавания на две независимые компоненты есть несколько причин. Одна из них – качество работы моделей зависит от объема подготовленных данных. Аудиоданных с готовой транскрибацией обычно в десятки раз меньше, чем текстовых. Поэтому работающая отдельно языковая модель может использовать большие объемы текстов для улучшения качества работы всей системы.

К сожалению, у этого подхода есть и недостатки. Разработка моделей ведется независимо друг от друга. Акустическая компонента ничего не знает об особенностях языка. В итоге для того, чтобы эффективно обрабатывать аудио из разных предметных областей, нужно подготовить много различных моделей. Этот процесс сложно автоматизировать.

Как мы улучшаем модель распознавания?

В области ASR в последнее время активно ведутся исследования по созданию так называемых «End-to-end моделей». В них за весь процесс распознавания отвечает одна компонента. Цель этих разработок – повторить успех нейросетевых моделей на базе архитектуры «Трансформер», которые применяются в машинном переводе и обработке естественного языка. А именно, получить модель, которая решала бы задачи из разных областей с тем же уровнем качества, что и узкоспециализированные модели, и адаптировалась под разные тематики.

В Yandex.Cloud мы создали свой вариант такой End-to-end модели, в которой языковая и акустическая компоненты обучаются совместно. Это позволило эффективно интегрировать лучшие на данный момент решения для работы с языком (GPT-3) и нейросетевые акустические модели (трансформеры, LSTM ) внутри одной нейронной сети (кодовое название модели - «hqa»). Она использует для обучения десятки тысяч часов аудио и терабайты текстовых данных. Нейросеть эффективно работает даже в тех областях, с которыми до этого не сталкивалась. Переход к новой архитектуре позволяет сервису автоматически адаптироваться под поток клиентов, которые используют эту опцию.

Кроме этого, для компаний, которым нужно обрабатывать большие объемы аудиоданных и достичь 100% покрытия звонков речевой аналитикой, был запущен новый тариф отложенной транскрибации, с гарантией обработки аудио в течение 24 часов. За счет оптимизации мощностей для распознавания и их использования вне пиковых часов нагрузки нам удалось снизить стоимость транскрибации в 4 раза.

Мы хотим, чтобы как можно больше компаний смогли попробовать речевую аналитику в действии и трансформировать свой контакт-центр. Используя данные автоматического распознавания для речевой аналитики, многие компании могут перейти от «иллюзии контроля» к «аналитике и улучшению», повысив эффективность своей работы и уровень удовлетворенности сотрудников и клиентов.

Подписывайтесь на блог Yandex.Cloud, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории, которые активно читают наши подписчики:

1313
5 комментариев

Рассказали бы, насколько сложно всё это настроить самостоятельно и сколько будет стоить Ya.Cloud компании.

К примеру, может ли малый бизнес анализировать звонки своего отдела продаж, настроить всё самостоятельно без огромных затрат и поддерживать работу системы? 

2

Обычно ключевая сложность для малого бизнеса это расходы ресурсов на интеграцию. Мы предоставляем сервис в виде API для того, чтобы его можно было встроить в любые решения. Некоторые сервисы телефонии\CRM уже имеют нативную интеграцию и дополнительный функционал вокруг этого (например, упомянутый в статье Zadarma).

Если говорить про затраты непосредственно на сервис транскрибации, то у нас это довольно подробно описано в соответствующем разделе документации - https://cloud.yandex.ru/docs/speechkit/pricing (длинные аудио)

2

Военные-мвдшные технологии на службу бизнеса))

В целом тема крутая. Интересно было бы узнать, как алгоритмы работают со смешенными диалектами.

Пример - татары очень быстро разговаривают и смешивают русские слова с татарскими. Получается конструктив типа "раствор ёк, суши вёсла. Кайда купить"?))) 

1

У нас в языке довольно много заимствований, поэтому в общем случае получится примерно описанная вами ситуация, за исключением моментов где есть сильно более употребляемые паронимы, но понимая контекст не очень сложно делать нормализацию в процессе аналитики.

1