Железная леди: кто и как создал IVR для Сбера

Если вы наберете номер 900, вам ответит голосовой бот Сбера. Это IVR (Interactive Voice Response) — робот, обученный помогать клиентам. Меня зовут Николай Судаков, я отвечаю за развитие этого продукта и расскажу, как мы создали голосовой IVR и как устроена работа продакта в Сбербанке (про метрики и работу над ошибками тут тоже будет).

До Сбера я девять лет работал с кредиторской задолженностью в другом банке. За это время я успел сменить несколько ролей. Порядком устав, я решил уйти в консалтинг и устроился в Ernst & Young, где поработал на нескольких проектах, связанных с крупным финтехом. Это был все еще «фин-», но уже «-тех», то есть гораздо ближе к тому, что мне на тот момент было интересно — к технологиям. Тогда же я прошел курс по Python 2 на Codecademy и курс «Математика и Python для анализа данных» на Coursera и это дало мне базовое понимание, на что способны современные технологии машинного обучения.

В 2016 году я пришел в Сбер на позицию проджект-менеджера — моя команда занималась жалобами клиентов на работу банка. Но проработал на этой позиции недолго — началась эджайл-трансформация банка (которая с тех пор продолжается). Благодаря этому в Сбере открылось много новых направлений. На общем собрании нам рассказали, что появятся новые продукты, и каждый может попробовать себя в роли продактов. Я решил рискнуть: пришел на собеседование с лидером продукта (голосовой IVR), рассказал, как собираюсь его развивать, почему интересуюсь именно им и зачем учил Python и базу по ML. Так в 2017 году из проджекта я стал продактом.

На самом деле никакого голосового IVR у Сбера в 2017 году не было — был предзаписанный голос и кнопочное меню. Работало это так: клиент набирал номер банка и ему предлагали какие-то ограниченные опции. «Если вы хотите заблокировать карту, нажмите два», «Если вы хотите поговорить с оператором, нажмите пять». Но кнопочный IVR сильно ограничивал и клиентов, и нас — мы поняли, что подход нужно менять. Нужно было сделать эту историю более понятной и полезной для клиента.

Мне пришлось с нуля погружаться в новую для меня технологию, учиться, много общаться с коллегами. Поначалу я вообще не понимал, что происходит. Если на какой-то встрече я слышал незнакомое слово (например, MRCP, сигнальный трафик, Kafka и VXML), я говорил — стоп, объясните, пожалуйста, что это значит. Потому, что если я промолчу, я подпишусь под решением, сути которого не понимаю. Это дало свои плоды: я за пару месяцев во всем разобрался и стал понимать разговоры на техническом языке.

Сразу стало понятно, что подходящих технологий для создания нового голосового IVR у нас нет, и мы решили провести конкурс на закупку систем распознавания и синтеза речи. К нам пришло 13 поставщиков (это очень много), поэтому конкурс закончился только в октябре 2018 года. К сожалению, большинство компаний принесли на конкурс синтез, основанный на технологии Unit Selection, а она тогда была на стадии своего заката. Мы проверяли не только качество синтеза, но и другие параметры — например, TCO (total cost of ownership, то есть затраты на создание продукта). В итоге выиграл синтез, который был основан на не самой современной технологии. Но с этим уже можно было начинать делать бота, и мы приступили к работе.

Банковский голосовой бот — сложный технологический продукт. Если упростить, он состоит из четырех компонентов. Первые два — синтез речи (его «голос») и распознавание (его «слух»). Третий компонент — NLP-классификатор, и именно благодаря ему помощник понимает клиентов. Если клиент говорит «хочу узнать баланс», машина благодаря функции распознавания речи получает набор букв. Она не понимает, что это значит, а классификатор как раз помогает понять. Четвертый компонент — это банковские интеграции. Для того, чтобы клиент все-таки смог узнать баланс по своей карте, бот должен не только понять его просьбу, но и знать, откуда и как брать информацию.

Кнопочный IVR, который я взял на развитие как продакт, был устроен намного проще. Старый помощник умел делать только две вещи: сообщать баланс по карте и историю пяти последних операций. Это было неудобно, поэтому мы пошли в сторону персонализированных предиктивных сценариев — то есть сценариев, основанных на данных о поведении клиента. Как банк мы знаем о клиенте очень много — какие операции он совершал и что у него могло случиться. Например, мы знаем, что карту клиента зажевал банкомат, и когда он нам звонит — нам очевидно, зачем он набрал номер. И вместо того, чтобы заставлять его продираться через множество вопросов и нажимать кнопки, «железная леди» может начать разговор с сообщения о том, что в банке уже знают о проблеме. Поэтому такие сценарии и называются предиктивными — мы знаем, что произошло у клиента.

Кроме того, мы знаем его привычки. Мы проанализировали огромные массивы данных и выделили клиентов, которые, например, всегда звонят, чтобы узнать баланс. И стали спрашивать: «Вы хотите узнать баланс?». Это, хоть и не сразу, но сработало. Поначалу из 100% людей, которые звонят на номер 900, чтобы узнать баланс, только 20% делали это в IVR, а остальные шли к оператору. Сейчас у нас 80% — к оператору с этой задачей идет лишь пятая часть пользователей. К 2019 году мы были сфокусированы именно на этом: создавать такие сценарии, чтобы клиенты действительно могли решить свою проблему.

Еще одно направление, которое было важным с точки зрения клиентского опыта — синтез, то есть голос, который будут слышать клиенты. Синтез на Unit Selection был далек от совершенства — с ним приходилось очень много работать, чтобы компенсировать это несовершенство. Например, он не мог правильно произнести «Вам подходят эти условия?» и просто говорил клиенту: «Вам подходят эти условия». И все — без вопросительной интонации. И мы нашли лайфхак: если добавить частицу «ли», интонация у робота становилась вопросительной — он спрашивал «Подходят ли вам эти условия?». Да, это было компромиссное решение, но с несовершенным синтезом, который был у нас тогда, эти решения работали. Еще мы понимали, что сообщения, озвученные голосом, воспринимаются иначе, чем напечатанные текстом, и просто следовать общепринятым рекомендациям по написанию текстов было бы неверно.

Тогда в дополнение к дата-сайентистам, аналитикам, тестировщикам, разработчикам и CJE мы наняли новых людей в команду — например, очень опытного редактора, который долго работал на радио. Лингвистов, которые умеют работать с текстами и прекрасно знают правила русского языка. Сценариста, которому уже приходилось делать похожие вещи и который хорошо понимал, как должен строиться диалог с клиентом. Нам удавалось даже из плохого синтеза выжимать хорошие результаты.

Кстати, окончательно мы убрали кнопочное меню и перевели всех пользователей на новый голосовой IVR в июне 2019 года — а до этого дорабатывали решение.

Сейчас у нас работает синтез, созданный нашими коллегами из SberDevices. Он улучшил качество голоса и радикально снизил нагрузку на команду в части адаптации текстов. Он звучит очень по-человечески, с ним точно не надо использовать частицу «ли» в вопросительных предложениях. А если изредка и возникают погрешности в произношении, то коллеги правят их в течение 2-3 дней. А еще распознавание речи нового синтеза приблизилось к такому уровню, что «железная леди» практически не ошибается.

Так что использование нового синтеза не только повлияло на качество звучания IVR, но и в несколько раз повысило скорость нашей работы.

Мы знаем, как пользователи общаются с операторами, и это очень помогает. Например, мы слушали, как отвечают операторы: это был оптимальный и полезный ответ или пользователю пришлось переспросить? И на основании этого мы проектировали прототипы. Мы создавали небольшой «кусочек» помощника, приглашали клиентов на интервью, задавали гипотетическую ситуацию и смотрели на то, как клиенты взаимодействуют с продуктом, что им нравится, а что — нет. Раз в два спринта мы обязательно общались с клиентами, с 10 — 12 людьми.

Интервью часто помогали понять, что мы повернули не туда. Например, у нас была такая проблема: некоторые люди не понимали, что говорят с роботом. Они начинали развернуто рассказывать помощнику о своей проблеме и машина не справлялась. Чтобы это исправить, мы добавили такую фразу: «Пожалуйста, сформулируйте свой рассказ в двух словах». И во время исследования поймали интересный инсайт: мы увидели, что на этой фразе люди зависают. В итоге четыре человека из семи сказали, что не знают, как сформулировать свою проблему, используя всего два слова. Оказалось, что они воспринимали просьбу робота буквально. Так мы отказались от этой формулировки и стали использовать другую — «Не совсем поняла ваш рассказ. Будьте добры, уточните вопрос». Это, кстати, одна из тех фраз, которые в тексте выглядят не очень, а на слух воспринимаются очень хорошо.

Еще мы постоянно мониторим, что о нас пишут, и это тоже хороший способ собирать инсайты. Недавно на «Пикабу» появился пост клиента Сбера: он рассказал, что спрашивает у нашего помощника, какой период полураспада у радия, чтобы его побыстрее перевели на оператора. Это наш стандартный подход: не важно, что спрашивает клиент — если мы не поняли его, мы переспросим, а если не поняли второй раз – предложим соединиться с оператором.

После этого поста мы добавили сценарий с периодом полураспада радия — теперь помощник может на это ответить. Это единственный не purpose-based сценарий у нашей «железной леди». Почему мы отреагировали именно так? Нам нужна была отдушина.

Это был конец тяжелого для команды коронавирусного периода, когда работы было очень много: клиенты стали активно пользовались удалёнными каналами обслуживания и у них возникало много вопросов. По нашим подсчетам, в мае мы получили на 30% больше звонков, чем в феврале. В тоже время часть операторов банка уходила на больничный, ведь никто не застрахован от болезни.

Добавляли работы и выступления президента, на которых он, например, объявлял о выплатах семьям с детьми. И вот выступление в два часа дня, а мы уже понимаем, что завтра с утра клиенты будут звонить и спрашивать: как получить выплату, узнать номер счёта и т.д. А значит, у нас в запасе всего несколько часов, чтобы подготовить правильный, исчерпывающий ответ на вопросы клиентов. И мы всегда успевали отреагировать на такие события.

В начале 2020 года я со своей командой пошел в «Продуктовую мастерскую» Сбера — это такая внутренняя банковская история для прокачивания продактов. Это нельзя назвать обучением или акселерацией (хотя по сути мы учились и акселерация была) — скорее фреймворк, который мы встраивали в рабочие процессы. Помогали нам менторы из ФРИИ — то есть мы продолжали работу над продуктом, но под их руководством.

В «Продуктовую мастерскую» я пришел, чтобы понять, как помочь клиентам решать их вопросы. А трекер в первый же день спросил: «А сколько клиентов вообще не задают вопросы?». И мы уже на старте увидели, что те 30% человек, которые сразу же зовут оператора, не пытаясь решить вопрос через помощника, генерируют 80% нагрузки на контактные центры. То есть они даже не давали нам шанса помочь. При этом многие из этих 30% звонили для того, чтобы узнать баланс. Это действительно было проблемой: операторы были загружены такими звонками, пока на линии ждали люди с более сложными проблемами. Чтобы это исправить, мы добавили переспрос: помощник стал говорить «Я поняла, что вы хотите поговорить с оператором, но скажите, пожалуйста, чем мы можем вам помочь». Как только мы добавили переспрос, метрика «автоматизация» (она показывает, скольким из позвонивших клиентов помог бот, а не человек) моментально, за один день выросла на 5% — при том, что рост на 10% был нашей целью на ближайший год.

Кстати, ломали мы эту метрику также успешно. Однажды мы решили, что слишком сухо говорим с клиентом и нужно добавить какую-то фразу повеселее. И придумали такую формулировку: «Теперь я работаю оператором, я умею вот это и вот это...». И люди перестали задавать вопросы, люди стали жаловаться. Клиенты напрямую говорили, что их это раздражает, и метрика резко просела — так резко, что мы откатили все назад.

Вообще в «Продуктовой мастерской» нам всем хорошо прочистили мозги. Такое бывает, когда человек о чем-то знает, но игнорирует эти знания или использует их неправильно. А тут рядом были два профессиональных человека, которые постоянно нас челленджили, и это многое изменило. Например, мы научились быстро откручивать гипотезы. Неделя — и две гипотезы «откручиваются», неделя — еще две гипотезы. Это была неправильная гипотеза? Ну и черт с ней, мы потратили на нее всего два дня..

Так получилось, потому что мы перестали отвлекаться на ерунду и долгий предварительный анализ. Такой анализ актуален для команд, у которых релизы раз в квартал, а мы можем выкатывать новые изменения раз в 15 минут, и детальный анализ нам нужен уже после того, как гипотеза «открутилась» на проде. Еще до мастерской мы постоянно говорили про A/B-тесты, но не делали их — не доходили руки. А сейчас каждая гипотеза проходит через A/B. Мы накапливаем данные, все сравниваем, смотрим, на сколько результат изменился и какой у него доверительный интервал, то есть стоит ли этому изменению доверять или это просто в пределах погрешности. К концу «Продуктовой мастерской» мы посчитали и поняли, что сэкономили банку десятки миллионов рублей такими изменениями.

Я смотрю на две метрики: «автоматизация» и CSI. О первой я уже рассказал, кстати с декабря 2018 мы вырастили её в 2,45 раза , А CSI (customer satisfaction index) ― показывает то, как нас оценивают клиенты по итогам звонка в банк. Сейчас наш CSI — 4,57 по пятибалльной шкале, и это много. Это значит, что большинство клиентов, которые оценивают разговор, остаются довольны. Мы не хотим насильно заставлять всех говорить с «железной леди» — более того, есть ситуации, в которых мы сразу же переводим клиента на оператора. «У меня украли деньги» — сразу оператор. В таких случаях нужна моментальная реакция, а иногда нужно успокоить человека, потому что он в панике.

Именно такими ситуациями и заняты операторы в колл-центрах. Но множество проблем клиенты могут решить (и решают) с помощью голосового IVR, и это радует. Мне очень нравится тот продукт, который получается — по сути мы смогли создать новую технологию внутри банка и уйти с кнопочного IVR. Но это как с ребенком: детей любят по определению, но глупо не замечать их недостатки. Я знаю, что в продукте работает не так, и у нас есть план, как это все поменять. Я хочу, чтобы человек, который позвонит на 900, получил ответ на свой вопрос быстро и качественно, и при этом даже не понял, что говорит не с реальным человеком.

27 комментариев

Вячовскi

15.10.2020

Пиздец вы реально угораете? Вы сделали абсолютно неюзабельное мерзкое гуано, единственная функция которого быстро позвать оператора. Дебильнее чем этот бот-аутист, доводящий до инсульта, только законы государственной думы принятые по пьяни после корпоратива. Может вы изобретете способ читать отзывы о ваших продуктах?