UX глазами пользователей: как узнавать о сбоях раньше, чем их заметят клиенты

Привет, я Николай Ганюшкин, СЕO и основатель MONQ Digital Lab. Мы с командой делаем первый AIOps (Artificial Intelligence for IT Operations, Gartner) родом из России, и сегодня я хочу поговорить о клиентском опыте, при чём тут ИТ, искусственный интеллект и синтетическое тестирование.

Влияние клиентского опыта на бизнес сложно переоценить
Влияние клиентского опыта на бизнес сложно переоценить

Говоря о клиентском опыте нет ничего лучше, чем вспомнить свой или почитать, что пишут пользователи. И вот я на отзовиках (теперь, кажется, я знаю все про то, где надо и не надо покупать игрушки детям, открывать банковский счет, брать ипотеку и заказывать доставку еды). Какие истории показались мне интересными?

Привлечение нового клиента может стоить компании в шесть раз больше, чем удержание и повышение лояльности существующего
Привлечение нового клиента может стоить компании в шесть раз больше, чем удержание и повышение лояльности существующего

"Сайт никак не хотел считывать карту", а на заказ еды "убила" полчаса жизни: клиентский опыт словами пользователей

История №1. Девушка сделала больше 30 заказов в очень популярном интернет-магазине и описывает свой последний опыт: «…Буквально месяц назад я долго ловила один свитер, его нет нигде, это прошлогодняя коллекция. Свитер очень недешёвый, оплатить его можно было только онлайн, как назло, мою карту сайт не хотел считывать никак. В общем, свитер я так и не купила. Служба поддержки навстречу тоже не пошла. И до сих пор не отвечает на мою жалобу. Правильно говорят, лучший клиент - это постоянный клиент. Я теперь не буду ничего заказывать [у них]. Потому что у конкурентов и цены значительно ниже и обслуживание лучше».

История №2. «…Сделала заказ [еды] на сайте. Мало того, что на самом сайте постоянно технические неполадки и сайт не может определить адрес вашего местонахождения. В итоге "убила" на оформление заказа около 30 мин своего личного времени».

История №3: «… Перелистывать [страницы] прошлых покупок практически невозможно - идёт срыв к началу (со сбивом селективности) или перескок на что-то ещё. Опция "показать ещё" не работает — идёт перезагруз с возвратом к началу, конечно же со сбоем настроек… И раньше-то набор количества работал с явными задержками. Теперь либо зависает, либо начинает ... показывать товар подробно, обратно возвращается всё только в начало, разумеется со сбоем настроек на рандомные… Некоторые нажатия вообще не вызывают реакцию сайта, при этом случайный провод курсора в др. случаях вызывает срабатывание БЕЗ нажатия!.. Были случаи, когда в набранной корзине самопроизвольно появлялись какие-то товары (от провода курсором?!), либо менялось их количество. Всё это происходит не только у меня, но и у моих родственников и друзей. В разных районах — Смоленка, Пресня, Коломенское, Сокольники. Со стационарных компов от сети и с мобильных устройств по разным сетям (Мегафон, МТС), с помощью разных браузеров — Виста 7, Яндекс, МС Эдж. У всех всё примерно одинаково глючит».

Вывод из этих историй из разряда «Капитан Очевидность»: влияние клиентского опыта на бизнес сложно переоценить. Вот несколько фактов о клиентском опыте и его влиянии на финансовые показатели компаний (Forbes):

  • Бренды с превосходным качеством обслуживания клиентов приносят в 5,7 раз больше доходов, чем конкуренты, которые отстают в обслуживании клиентов.
  • Смена клиентов из-за плохого обслуживания обходится американским компаниям в 1,6 триллиона долларов.
  • 96% клиентов считают, что обслуживание клиентов играет важную роль в их выборе лояльности к бренду.
  • Клиенты рассказывают о положительном опыте работы с брендом в среднем 9 человек, а об отрицательном – 16 человек.

При этом клиентский опыт сегодня – это взаимодействие клиентов с компанией онлайн (спасибо пандемии) – через личные кабинеты, формы заказов и обратной связи, чаты, чат-боты и другие инструменты.

ИТ-директор и его боли

Допускать падение сервисов, которые напрямую влияют на клиентский опыт, означает для бизнеса мгновенную потерю выручки и репутации (читайте истории выше). Роль качественной ИТ-поддержки возрастает в разы, а ИТ-руководителям приходится решать сразу несколько проблем:

  • Клиенты быстрее IT узнают о сбоях и жалуются бизнесу и делятся негативным опытом (привет, отзовики!).
  • Непонятно, что послужило причиной сбоя.
  • Инженеры тонут в «шуме» алертов: в «шуме» тысяч уведомлений от систем мониторинга сложно распознать действительно важные.
  • «Упал» продукт, но непонятно, кто чем занимается и решается ли проблема.
  • «Всё горит»: растет число задач, а штат не увеличивается.
  • Ошибки людей и неэффективная трата ресурсов: большая часть регламентных действий делается вручную
  • Неизвестно: сбои не прогнозируются, а устраняются по факту, перманентная борьба с ними стала нормой.
  • Ошибки приоритезации инцидентов, когда ИТ-службы не обладает инструментом оценки влияния сбоя на бизнес и неверно расставляют приоритеты.

Вы не поверите, но эти проблемы может решить один AIOps и синтетический мониторинг в его составе вкупе с другими возможностями – например, зонтичным мониторингом и автоматизацией. Синтетика дает полный контроль над функционированием бизнес-сервисов. Данные проверок, сделанных автотестами и скриптами, "летят" в систему, обогащая ресурсно-сервисную модель. Вкупе с техническими данными, анализом больших данных такая система позволяет видеть полную картину цифрового здоровья компании и реагировать на инциденты проактивно – и да, улучшить таким образом клиентский опыт.

«Да зачем усложнять? Сделать сборку на Selenium и все» – да, если у вас маленькая компания, а если большая – это еще пару сотен уведомлений, еще несколько экранов, за которыми надо следить.

«Да можно же при тестировании прокликать и потом пару раз проверять» – да, только это дорого и неэффективно. И да, придется нанять отдельного человека (или целый штат). У нас был клиент, которому такие проверки обходились в сотню миллионов рублей в году.

Если вы крупный бизнес и беспокоитесь за KPI и эффективность, то вам нужен синтетический мониторинг в составе AIOps. Он позволяет:

  • тестировать любые интерфейсы с помощью машинного зрения;
  • смотреть на состояние цифровых сервисов глазами пользователей и проактивно реагировать на ошибки;
  • проактивно определять сбои и аномалии;
  • на 60% сократить время расследования причин аварий;
  • видеть полную картину, а не разрозненные данные – отдельно о состоянии ПО, отдельно о состоянии «железа», отдельно о клиентских сервисах.

Кейс: как перейти от ручных проверок интерфейсов, автоматизировать инцидент-менеджмент и в 20 раз сократить расходы

Как синтетическое тестирование вкупе с зонтичным мониторингом и автоматизацией помогает реагировать на сбои до того, как их заметят клиенты, при этом сократить время реакции и решения инцидентов и при этом значительно сократить расходы – можно на кейсе одного из наших клиентов.

Проблемы клиента были типичными для многих крупных компаний с большим количеством онлайн-клиентов: основной сайт, цифровые сервисы и ПО для сотрудников работали нестабильно, внешние и внутренние пользователи жаловались на недоступность сервисов, но ИТ не могло обеспечить стабильность работы сервисов и узнавало о проблемах от пользователей. Критические инциденты обрабатывались более 30 минут, иногда до 1 часа. Ситуация осложнялась большой разрозненностью процессов: ИТ-юнит эксплуатировал более 100 информационных систем, работал с 22 подрядчиками, а системы вручную мониторили 50 инженеров.

Отдельный контракт был на ручные проверки интерфейсов – сумма в десятки миллионов рублей. Подрядчик вручную проверял большое число интерфейсов и сервисов. Речь шла о 80 информационных системах, которые нужно было проверять по пяти сценариям. Это давало в общей сложности 400 сценариев для обработки, которые проверяли в день минимум 10 раз. В сумме ежедневно проводилось 4 000 ручных проверок. На каждую проверку уходило минимум 20 минут, и при обнаружении проблемы регистрация инцидента и работы с ним тоже происходила вручную. Время инженеров использовалось неэффективно. При этом «отловить» недоступность всех интерфейсов было сложно.

Клиент хотел обнаруживать сбои до того, как их заметят пользователи и сократить время решения инцидентов. В идеале – мониторить услуги с позиции пользователя: централизованно запускать с определенной периодичностью автотесты, которые имитировали бы поведение пользователей в системе, и на основе этих тестов искать возможные ошибки, угрозы и сбои и реагировать проактивно. При этом данные синтетических тестов, бизнес-данные и технические нужно было объединить под «зонтик» - только в этом случае эффективность работы команд возрастала.

Как мы это реализовали?

  • Подключили к системе cвязку Zabbix+Jenkins+Selenium+Allur
  • Подключили к системе около ста информационных систем клиента
  • Запустили автоматическое тестирование (в среднем 3-7 тестов по 10 шагов на каждую систему)
  • Настроили более 7 000 метрик и более 2600 триггеров
  • Заменили ручные проверки автоматическим синтетическим тестированием
  • Автоматизированный инцидент-менеджмент: настроили автоэскалацию событий, их автоматическую регистрацию в ITSM, оповещение ответственных команд, подсказки для инженеров по разрешению проблем, скрипты автоматизации для рутинных задач.

При этом сначала клиент ставили на мониторинг функционирования простые системы, внешние порталы, простые внутренние системы, где в сценарии были простые авторизации, проверка доступности контента, поиск кнопок, проверка сервисов подписок и т.д. Потом начал подключать системы с более сложной логикой – например, там, где для проверки корректности отработки функции генерации отчета надо было посмотреть на состав документа Word.

Главный результат – не один. Во-первых, объем жалоб на недоступность снизился с 40% до 5%. Во-вторых, доступность сервисов выросла до 98.5% (на 1.2% с 97.3%). Средняя скорость решения сбоя после внедрения MONQ выросла с 30-60 минут до 15 минут. Что с затратами? Расходы на мониторинг пользовательских интерфейсов снизились. В 20 раз.

Каких болей не снимет AIOps?

  • Система тестит работающий функционал, но, если пользователю неудобно или функционал отсутствует, – проблема не из области доступности или работоспособности. Я тут на днях читал историю про компанию по выдаче займов. В личном кабинете «24% потенциальных заемщиков, которые уже получили одобрение, не оформили займ до конца. Почему? Они предоставляли банковскую карту, номер которой содержал 18 цифр, вместо заложенных и протестированных 16. Ни система, ни менеджеры не могли зарегистрировать такие карты, и клиенты уходили ни с чем». AIOps в таких случаях может просто показать, что делал пользователь – и если таких ошибок много, наверное, стоит пересмотреть форму заявки.
  • Проверки роботизированы, но проводятся по сценариям, написанным человеком. Если в тесте ошибки или что-то не учтено – повод поработать с кадрами, которые занимаются настройкой тестирования. Проще говоря, AIOps – это молоток, который покажет результат, если будет в правильных руках (а инструкции и обучение предоставим).
22
3 комментария

Более подробно о кейсе можно почитать тут https://habr.com/ru/post/507090/

1

"Настроили более 7 000 метрик и более 2600 триггеров"
Вопросы:
1) сколько это стоило человеко-часов
2) за какой календарный период

это было сделано за 4 месяца, работало в команде 4 человека на фултайм (два программиста, которые писали скрипты, один аналитик и один системный администратор)

1