Кейс AIC: построение процессов тестирования гипотез на примере крупного банка

Руководитель отдела аналитических исследований в AIC Виталий Черемисинов поделился советами, как построить процесс тестирования гипотез. Иллюстрируется это рассказом о проекте: обучение команды крупного банка процессам тестирования гипотез.
Интервью в рамках проекта Нормально делай, нормально будет

Кейс AIC: построение процессов тестирования гипотез на примере крупного банка

Начало: пилотный проект

В большом продукте нередко сложно перейти к принятию data-driven решений на уровне менеджмента. Особенно если это организационно сложный продукт, например банк.

Какая проблема среднестатистического менеджера в достаточно консервативной организации? Это собственные амбиции, это желание до последнего убеждать окружающих в собственной экспертизе и отказываться ставить ее под сомнение.

Чтобы показать компании, что от новых процессов будет ощутимая польза для продукта, AIC договаривается о запуске пилотных экспериментов.

В крупном банке, о котором идет речь, первой задачей было организовать серию лекционных мероприятий и воркшопов. На них показывали ключевым стейкхолдерам на примерах необходимость проведения корректных вычислений. В редком эксперименте достаточно посчитать и сравнить два средних значения – нужно использовать подходящий математический аппарат.

Совет аналитикам: начинайте с малого

Начните с простой воронки. Для банка это, например, от заинтересованности клиента до заявки. Затем разделите пользователей на простые когорты – и уже можно найти самые очевидные точки роста. Дополнительно можно привести Custdev, сформировать перечень гипотез и протестировать что-то минимальными усилиями, не привлекая разработку.

Проблема многих компаний в том, что бэклог всегда занят доработками и исправлением ошибок. Для гипотез не остается времени. Здесь могут помочь сервисы, которые позволяют быстро делать простейшие эксперименты. Например, Google Tag Manager позволит разделять потоки данных трафика для A/B теста. Начиная с малого, можно постепенно привести команду и руководство к пониманию ценности работы с данными.

Если уйти в долгострой, ты можешь просто не дожить до его окончания в компании. Либо с тобой попрощаются, либо ты просто устанешь от этой рутины. Поэтому самый лучший сценарий – это начать с малого.

Первые гипотезы: проверяем чувствительность метрик

Вместе с командой продукта аналитики AIC составили перечень гипотез и запустили несколько небольших экспериментов.

Целью экспериментов было не увеличить конверсию, а дать попробовать команде сам процесс и показать, что он практически не затрагивает внутренние ресурсы. Эксперименты разрабатывались, запускались и анализировались силами самой аналитической команды.

Одновременно выяснялось, какие изменения могут «пошатнуть» определенную метрику: как влияет изменение текста, изображения, маленькое добавление функциональности. Это подсказывает, в каком векторе нужно двигаться для более глобальных изменений.

Примеры первых экспериментов, которые запускали в банке:

1. Изменение в отображении карточных продуктов
На карточках в списке были описаны характеристики каждого продукта. В эксперименте для каждого продукта в явной форме добавили плюсы и бонусы каждой карты: например, конкретный Cashback. Ожидали повышения CTR, то есть отношение количества кликнувших на продукт к просматривавшим список.

2. Добавление в превью продукта количества просмотров продукта
По аналогии с booking.com предполагалось, что количество просмотров побудит пользователей к выбору. Так отвечали на вопрос, существуют ли для пользователей иные факторы, влияющие на выбор продукта, кроме характеристик самого продукта.

В эксперименте наблюдали комплекс из микрометрик:

  • время от захода на список (сколько прошло времени от попадания на список до клика на карточку с продуктом)
  • CTR превью продукта
  • количество попыток отправить заявку на продукт
  • время, проведённое на странице со списком продуктов и количество просмотренных продуктов

Совет аналитикам: проверяйте чувствительность метрик

Последняя метрика отвечала на вопрос: «Пользователь сразу принял решение, что ему этот продукт нужен, или продолжал смотреть другие?».

Подобные эксперименты вряд ли могут значительно изменить макрометрики (количество оформленных заявок, выданных кредитов или заказов в интернет-магазине). Однако с помощью микрометрик можно понять, что влияет на пользовательское поведение, и дальше развивать это направление.

Проведение экспериментов

Для каждого эксперимента готовятся два варианта страницы: один текущий и один с изменениями для эксперимента. Затем запускается А/Б тест и собирается необходимое количество данных.

Приоритет метрик определяют заранее, чтобы принять решение даже в неочевидных случаях, когда одна важная метрика упала, а другая пошла вверх.

Например, в случае второй гипотезы (добавление количества просмотров продукта на превью) был видно влияние на микрометрики: стали быстрее переходить на популярный продукт, стали чаще переходит от списка к продукту. Значит, другие факторы (популярность продукта) тоже важны.

Выводы этого эксперимента можно использовать и по-другому: например, добавить визуальные триггеры для пользователя, нотификации для повышения интереса пользователя к продукту.

После того, когда мы уже провели такую презентационную процедуру, мы смогли убедить коллег в том, что действительно это может быть полезно бизнесу

Совет аналитикам: если данные не помогают убедить

Многое зависит от коммуникационных навыков человека, который занимается презентацией результатов пилота. Стоит развиваться в области выступлений и учиться подбирать максимально наглядные эксперименты для примера. Но случаи «самодурства» менеджмента не исключены – иногда действительно ничего невозможно добиться.

Когда я только-только начинал работать аналитиком, у меня было чёткое убеждение, что с цифрами не спорят. Но, на самом деле, спорят и ещё как. К сожалению, у меня нет универсального решения. Только объяснять, доказывать, пересчитывать, показывать риски, что вы потеряете, если вы это внедрите.

Кейс AIC: построение процессов тестирования гипотез на примере крупного банка

Запуск проекта

После успешного пилота в банке клиента начался полномасштабный проект по обучению команды и построению процессов. Такой процесс может длиться до нескольких лет, пока растет экспертиза и умение продуктовой команды.

Сбор данных

Для принятия информированных решений необходимо обеспечить себя набором данных. Как правило, вся нужная информация хранится в разных источниках: внутренние базы данных, разные контуры.

На разных проектах получается работать с разными средами анализа данных. Как правило, к источникам данных подключаются по API через R и сводят это в одной среде.

Совет аналитикам: с каких инструментов начинать

Начинать строить продуктовую аналитику самостоятельно лучше с максимально доступных и распространенных инструментов, которые хорошо задокументированы и имеют клиентскую поддержку, например Google Analytics и Google Optimize.

Сбор данных будет происходит в Analytics, а запуск экспериментов – в Optimize. Для более серьезного анализа можно использовать API для обращения к данным через R или Python, выгрузить и обработать математическими методами. Для большинства продуктов этого вполне достаточно.

Безусловно, можно строить свои кластеры, выделять отдельные сервера. Однако это нужно не каждому продукту, а хранение данных в облаке (Amazon, Google) может быть значительно дешевле с точки поддержания инфраструктуры. Кластеры скорее нужны тем, кто переживает за сохранность своих данных, например банкам.

Генерация гипотез

Для генерации гипотез полезно знать бенчмарки поведения пользователей в какой-то области. AIC знание поведений пользователей различных банков помогает предположить, где кроются точки роста для банка. При этом всегда могут присутствовать аномалии в отдельных сегментах, так что все нужно тестировать.

В проекте, о котором идет речь, изучалась воронка с отложенным спросом на различных сегментах пользователей. Тут полезно знать, на протяжении какого периода пользователи обычно принимает решение по заполнению заявки. Если нормальным поведением для отрасли является три дня, тогда уход пользователя без завершения заявки в самую первую сессию – это норма и вряд ли связано с неудобствами интерфейса

Например, пользователь заходит на первый шаг анкеты, начинает вводить паспортные данные, а затем уходит. Это не означает, что паспортные данные ему вводить неудобно, возможно у него нет с собой паспорта.

Совет аналитикам: где хранить гипотезы

Все гипотезы заносятся в обычный Google Doc. Потом они приоризитируются и переносятся в TeamGantt, где из них делается что-то вроде Roadmap. В нем показывается зависимость гипотез друг от друга как просто по времени, но и по результатам: какие-то гипотезы могут быть похожими, и если одна из них не сработала, то и другую тестировать меньше смысла. Этот файл постоянно обновляется и является важным для команды документом.

Приоритизиация гипотез

Обычно приоритет гипотез включает в себя несколько критериев. Два ключевых:

  • Сложность технической реализации. Не всегда маленькую гипотезу легко сделать: может не хватать данных или нужно сочетание нескольких условий.
  • Емкость трафика. Гипотезы могут касаться разных частей воронки, и где-то данных достаточно для быстрого эксперимента, где-то их меньше. Тесты желательно выпускать как можно чаще, поэтому чем меньше данных, тем хуже для процесса.

Совет аналитикам: Как быть, когда к концу воронки доходит очень мало данных

Нередко продуктовые команды не запускают A/B тесты в сегментах с небольшим количеством траффика (очень узких, или когда речь идет о конце воронки, куда доходит очень маленькое количество лидов). В некоторых случаях можно воспользоваться методом ресемплинга, чтобы работать с этими данными – если дисперсия внутри группы не очень большая.

Подсчеты A/B тестов

Подход к подсчету А/B теста зависит и от количества групп A/B/C/D в тесте, и от самой анализируемой метрики, от формы распределения данных.

Например, при тестировании фичи в E-commerce анализируемая метрика – это выручка на пользователя. В распределении горб будет сильно скошен влево и длинный хвост. Модой будут являться самые часто встречающиеся значения, например, 1500 рублей. Дальше будет хвост, который может доходить до 1,5 млн – в такой ситуации среднее или медиану будет брать некорректно.

«Горб» графика E-commerce

Исходя из распределения, важно подобрать правильный критерий, чтобы полученный результат был корректным и его можно было интерпретировать правильно с точки зрения бизнеса.

Совет аналитикам: не принимайте решение эмоционально

В одном продукте команда аналитиков самостоятельно запустила A/B тест для нового дизайна сайта. Новая версия отличалась по дизайну, много функционала было изменено, а также было некоторое количество технических ошибок, которые исправлялись по мере нахождения.

В течение первых пяти дней вариант с новым дизайном давал такие низкие метрики, что эксперимент завершили раньше срока, а работу над новым дизайном прекратили.

В AIC решили пересчитать результаты эксперимента, чтобы понять, было ли это решение обоснованным.

Обнаружилось, что если разложить данные по временному ряду и корректно обработать, то в начале новый дизайн давал низкие показатели, но они росли от дня ко дню. Большой процент лояльных пользователей действительно сначала был смущен новым дизайном, но ситуация исправлялась изо дня в день.

В этой ситуации стоило не прекращать эксперимент, а снизить долю пользователей, которые попали на новый вариант дизайна, чтобы избежать сильного понижения ключевых показателей, и ещё подождать. Такие ситуации, когда не дожидаются итогового результата, а принимает решение очень опрометчиво и эмоционально, опасны для продукта.

Мне кажется, это даже большая проблема, чем вообще не верить данным, такое слишком слепое доверие к первому какому-то сигналу, не убедившись: это случайность или реально какая-то тенденция.

Именно поэтому в AIC такое большое внимание уделяется работе с изучением данных: что за данные, как они описаны, как они характеризуются. Уже под это подбираются релевантные критерии, которыми можно лучше всего описать эксперимент. Большая часть этой работы – математика и статистика, с добавлением экспертизы в области.

Интервью целиком:

Виталий Черемисинов, AIC: Строим процессы проверки продуктовых гипотез.

Подписывайтесь на телеграм-канал «Нормально делай, нормально будет», чтобы читать самые интересные кейсы по созданию и продвижению digital-продуктов и иметь возможность задать вопросы экспертам – гостям передачи «Нормально делай, нормально будет».

66
Начать дискуссию