От гипотезы в месяц до гипотезы в день, или Как устроена кухня A/B-тестов во Flocktory

По данным Invesp, 71% компаний проводит A/B-тесты для оптимизации веб-продуктов и улучшения метрик. Мы обсудили этот инструмент для проверки маркетинговых гипотез и его влияние на показатели эффективности бизнеса с Данилой Епишиным, Head of Performance Products в команде Flocktory.
В конце текста — карточки по тестированию гипотез.

О том, как в компании наладили цикл тестов, а затем ускорили его, как это повлияло на бизнес-результаты и к какому P-значению стремится команда Данилы — в нашем интервью.

— Во Flocktory работа с гипотезами идет постоянно. Скажи, сколько вы их в среднем тестируете за год?

— Около 600 — это примерно 50 гипотез в месяц. Большую часть запускаем на сайтах партнеров, при этом одну гипотезу иногда нужно запустить на 50-100 сайтах, чтобы подтвердить ее для каждого нашего партнера. Поэтому если говорить про уникальные гипотезы, то выходит около 50. В сумме ставим около 1000 экспериментов в месяц с учетом того, что одну и ту же гипотезу можем тестировать в разных местах.

— Звучит внушительно! Как это стало возможным и как это повлияло на результаты?

— Наш секрет — это скорость прохождения ключевых этапов в тестировании гипотез. Всего их пять.

1. Генерация. Чтобы эффективно создавать гипотезы, команде нужен продакт или другой специалист, который умеет системно работать с источниками. Чаще всего гипотезы рождаются из данных, общения с пользователями, результатов опросов и анализа конкурентов — как прямых, так и в целом сервисов, которые решают похожие задачи. У каждого продукта свои источники гипотез, которые будут наиболее эффективными. Мы пользуемся всеми перечисленными, а каждую новую гипотезу заносим в бэклог.

2. Приоритизация. Ей должен заниматься специалист с готовой системой приоритизации гипотез. Я встречал ситуации, когда команда из трех, четырех или 15 человек начинает голосовать за гипотезы в рамках встречи. Или 15 человек дают собственные оценки, а затем на их основе считается среднее арифметическое. Это затягивает процесс и не всегда улучшает его, в то время как квалифицированный продакт- или growth-менеджер может самостоятельно оценить и приоритизировать гипотезы по ряду критериев.

У нас этот этап практически не занимает времени: мы задали критерии приоритизации гипотез на основе данных и работаем по ним. В сущности, это шкала ICE, но не та, которую все используют по-своему, а с определениями для каждого критерия: в каком случае это Confidence 3, в каких — Confidence 2 и т. д. Поэтому продакт-менеджер, когда смотрит на каждую гипотезу, может самостоятельно по уже установленным критериям определить уровень ICE для гипотезы, а затем решить, использовать такую модель или отклониться от нее.

3. Подготовка. Зачастую это самый долгий этап, и многие компании, в которых тестируют одну гипотезу в месяц, теряют больше всего времени именно на нем.

Для наших performance-продуктов рассматривали разные решения, к примеру, Google Optimize. Затем в качестве временного решения решили сперва попробовать собственный инструмент — он позволяет показывать виджет, чтобы быстро тестировать гипотезы. По ходу работы стало понятно, что он проверяет 99% всего, что мы хотим. В итоге начали полноценно использовать свой продукт для тестирования гипотез. Нам очень помогает команда frontend-разработки: они за три дня готовят любые эксперименты как для нас, так и для партнеров.

В большинстве случаев от намерения провести эксперимент до создания кода проходит два дня. Далее смотрим, как отображается ход эксперимента, и, если все хорошо, запускаем. Чаще всего за неделю мы набираем достаточно данных для анализа. Когда запускаем эксперимент, то уже понимаем, какую целевую метрику хотим вырастить и на какие данные будем смотреть, чтобы понять, подтвердилась гипотеза или нет.

4. Сбор данных. Для нас это самый долгий этап — он занимает неделю. Мы, конечно, можем тестировать несколько гипотез параллельно, зачастую даже на пересеченном трафике, если они не влияют друг на друга. Иногда делим трафик: на одной части тестируем одну гипотезу, на второй — другую. То есть мы ждем неделю, прежде чем запускать новую гипотезу, но параллельно можем тестировать другие. Затем видим результаты эксперимента в стандартном шаблоне и оцениваем влияние каждой протестированной кампании на ключевые метрики.

5. Выводы. Грамотно сформулированная гипотеза сразу предполагает, какие выводы из каких метрик предстоит сделать и какое решение принять. Она может подтвердиться с дальнейшей имплементацией в продукт, а может быть опровергнута. Это тоже хороший результат, это новые знания, хоть и не влияющие на метрики. Иногда можно получить промежуточный результат, когда, допустим, мы вырастили одну метрику, но по целевой не было изменений или вырастили целевую метрику, но уронили какие-то проверочные. В этих случаях мы думаем, как изменить эксперимент или гипотезу, либо добавляем больше вариаций. Последнее делается для того, чтобы реализовать потенциал гипотезы, если он в ней есть по итогам теста.

— Кто участвует в этом процессе и сколько времени на это тратит?

— Чаще всего — growth- или аккаунт-менеджер, если речь идет об эксперименте с клиентом. Также не обойтись без frontend-разработчика, который непосредственно готовит эксперимент. В сумме для менеджера каждый шаг на этой стадии занимает два-три часа в пределах одного эксперимента, если мы говорим о какой-то простой гипотезе. Разработчику понадобится примерно столько же времени. Если мы можем запускать тесты параллельно, а специалисты тратят на них меньше рабочего дня, то это позволяет нам проверять по гипотезе в день.

На этом этапе очень важно не просто получать результаты в виде дельты и видеть, что какая-то вариация повышает метрику больше других, а убеждаться, что эта дельта статистически значима, т. е. обусловлена именно экспериментом, а не случайной погрешностью.

Прим. ред.: дельта — соотношение двух метрик по итогу эксперимента. Считается по формуле X/Y − 1, где X — результат тестовой вариации, а Y — контрольной. В экспериментах, направленных на рост, это значение должно быть больше нуля, в противном случае гипотеза опровергается.

— Расскажи подробнее про вариации и погрешности.

— Чтобы убедиться, что именно тестируемые изменения повлияли на метрику, важно следить за критерием статзначимости. Он позволяет определить, с какой вероятностью результаты теста можно списать на статпогрешность. По моему опыту, что российские, что зарубежные клиенты ставят отсечку в 5% — именно такова вероятность, что результаты эксперимента можно объяснить статпогрешностью. Это считается нормальным показателем.

Точно неизвестно, почему все выбирают именно 5%, а не 4% или 6%. Я предполагаю, что эта практика идет из медицины — именно там взяли за стандарт на 5%, а продакт-менеджеры слепо скопировали подход. Хотя в медицине такой сравнительно высокий риск обусловлен недостаточностью данных для подведения итогов эксперимента. Испытуемых для препаратов не сотни тысяч и миллионы, а в лучшем случае десятки или сотни, и по ним сложнее делать уверенные выводы. В таких условиях набрать 95% успешных случаев — это уже хорошо.

В ecommerce или онлайн-сервисах, где миллионы посетителей, очень часто можно сократить этот уровень риска до 1%. Поскольку мы тестируем очень много гипотез, то если бы ориентировались на 5%, то из 20 гипотез в месяц у нас бы была в среднем одна с ложным результатом. Поэтому мы равняемся на показатель в 1%, а не на 5%, так называемое P-значение (P-value) в этом случае равно 0,01. И благодаря тому, что нашими продуктами пользуются миллионы людей, нам часто хватает недели, чтобы собрать эти данные.

— Что делать тем, у кого нет миллиона посетителей?

— Есть компромиссное решение — анализ прокси-метрик. Например, вы меняете главную страницу и хотите понять, как это влияет на конверсию в заказ. Однако на сайте всего несколько тысяч заказов в месяц. Вам придется очень долго ждать результатов: значимость в 5–10% сложно набить быстро. Тогда мы смотрим прокси-метрики, например, как часто посетитель переходит на другую страницу, просто не уходит с сайта сразу же. Риск принять неправильное решение в этом случае чуть выше, зато тестировать гипотезы можно намного быстрее.

— Можешь на примерах рассказать, как проверка гипотез помогает улучшить бизнес-метрики партнеров? Понятное дело, что мы чаще всего говорим про изменения на сайте, будь то дизайн, коммуникация или что-то еще. Например, можно ли с помощью правильной кнопки увеличить продажи?

— У нас есть рекламодатель — онлайн-кинотеатр «Смотрёшка». Наверняка кому-то известен этот бренд, но лично я впервые о нем услышал, когда мы начали с ним работать. При этом я уверен, что большему числу читателей известны IVI, Start, KION и прочие. «Смотрёшка» прекрасен тем, что объединяет в себе сразу несколько онлайн-кинотеатров и дает доступ к каждому из них.

Когда мы добавили сервис на витрину подарков Exchange, то первым делом протестировали, как позиционируем само предложение — через картинку с логотипом. В одной вариации был только логотип «Смотрёшки», а в другой — еще и уменьшенные логотипы вышеупомянутых сервисов. Тесты показали, что пользователи в три раза чаще кликали на предложение «Смотрёшки» во втором случае. Однако также важно, что мы проверили и все дальнейшие метрики по воронке продаж: в три раза увеличилась не только конверсия в клики, но и подписки, — а все потому, что посетители лучше понимали, что им предлагают. На тот момент сервис «Смотрёшка», чей бренд сам по себе был не очень популярен, ворвался на витрине в пятерку лидеров по числу активированных новых клиентов.

Другой пример — «Альфа-Банк» — не про результаты, а про психологию. В начале 2023-го банк улучшил предложение на витрине подарков Exchange: беспроцентный период по новой кредитке увеличился до 365 дней. Коллеги из «Альфа-Банка» предложили переименовать акцию в «Год без процента». Очевидно, что такое изменение повысит популярность предложения и прокачает все шаги в воронке. Однако когда ты можешь тестировать много гипотез, появляется ресурс даже для таких мелких вопросов, как «написать „Год без процентов“ или „365 дней без процентов“?». Мы проверили эту гипотезу и выяснили, что второй вариант приносит на 10% больше заказов, а это десятки тысяч новых клиентов в год. Вот пример теста, где дельта не такая большая, но даже такими малыми оптимизациями можно кумулятивно получать кратный рост, проверяя подобные гипотезы каждый день на постоянной основе.

Кратный рост — это наш основной ориентир в работе с клиентами. Иногда дать его может одна прорывная гипотеза, как в случае со «Смотрёшкой», иногда — последовательность небольших удачных гипотез, как с «Альфа-Банком».

— На какой метрике вы фокусируетесь в первую очередь, тестируя гипотезы?

— В нашем продукте два ключевых участника — рекламодатели, которые размещают свои предложения на витрине Exchange, и трафик-провайдеры (это сайты и сервисы с большой аудиторией, которые не предлагают пользователям ничего напрямую, но хотят монетизировать эту аудиторию, предоставляя площадку для партнеров).

Ценность сессии — это доход, который мы как Flocktory получаем с пользователя, перешедшего на Exchange. Часть этого дохода идет на монетизацию трафика для провайдеров. Так что нам важно максимизировать заработок с пользовательской сессии: чем больше получат трафик-провайдеры, тем больше трафика они захотят привести в продукт и тем лучше будут результаты рекламодателей. Во многом поэтому большая часть экспериментов по продукту отслеживает именно доход на сессию.

— Давай перейдем к универсальным советам для тех, кто хочет ускорить рост продукта за счет экспериментов.

— Во-первых, если в рамках вашего продукта недорого проводить эксперименты, я бы порекомендовал назначить ответственного за рост — компетентного специалиста с высокой экспертностью. На рынке таких не очень много, но они есть. Также никто не мешает вырастить такого специалиста внутри компании. Чаще всего в эту роль может перейти продакт, умеющий работать с данными, или аналитик, понимающий основы продукта.

Короче говоря, для начала вам нужен growth-менеджер — некто, кто будет отвечать за рост продукта. Ему, в свою очередь, потребуется инфраструктура для системного и непрерывного запуска экспериментов. Также понадобится команда разработчиков, которая будет эти эксперименты быстро готовить. Ну и не обойтись без унифицированного инструмента для анализа итогов. В общем, все то, что мы предлагаем в рамках нашей платформы. *смеется*

Все остальное приложится, а насколько быстро и успешно, зависит от таланта growth-менеджера, который у вас будет править весь этот бал. Чуть не забыл: этому человеку нужно дать не только инфраструктуру, но и полномочия. Часто в интернет-магазинах и других онлайн-сервисах работают различные команды — у каждой свои целевые метрики, и важно, чтобы у growth-менеджера была автономия, чтобы он мог принимать решения самостоятельно.

— Порой клиенты приходят к нам с готовыми гипотезами. Как часто они ошибочны? Поделись тремя секретами, как правильно их формулировать.

— Давай отталкиваться от определения. Гипотезы — это предположения о конкретном изменении внутри продукта и о том, как оно повлияет на некую целевую метрику. Соответственно, идеальная гипотеза должна быть максимально конкретной. Часто встречаются предложения от клиентов, которые смешивают несколько разных гипотез в рамках одной. Например, тестируем новое изображение, но в нем меняется целиком и дизайн, и текст. Такой эксперимент покажет, как хуже или лучше работает это сочетание изменений в совокупности, но будет непонятно, что стало ключевым фактором: оформление или сообщение.

Так что первое правило: каждая гипотеза должна быть максимально конкретной и работать с единственным изменением.

Второе: изменение должно иметь возможность повлиять на конкретную метрику. Я часто встречал случаи, в которых гипотезы формулировались без понимания целевой метрики, которую этот эксперимент должен изменить. В таких ситуациях можно смотреть на все метрики подряд и пытаться делать какие-то выводы. Это сравнимо с ситуацией, когда корабль в дрейфе причаливает к острову, но команда не знает, хорошо ли это. Такая работа бессистемна.

Третье: гипотеза должна быть релевантна для вашего продукта прямо сейчас. Если понимаете, что ваш онлайн-сервис по какой-то конверсионной метрике в три раза отстает от конкурентов, то нет смысла тестировать мелкие гипотезы и заниматься тонкой настройкой типа улучшения кнопок. Стоит подняться на уровень выше: переосмыслить CJM, изменить структуру информации на целевой странице и т. п.

Начать проводить тесты и оптимизировать сайт можно с помощью нашей A/B-оптимизации.

— Поможем сформулировать гипотезы
— Запустим тест в течение нескольких дней
— Оптимизируем дизайн, контент и другие элементы сайта по результатам теста

Первые два месяца услуга доступен со скидкой. Заполните форму обратной на нашем сайте или напишите нам на sales@flocktory.com, чтобы узнать подробности.

От гипотезы в месяц до гипотезы в день, или Как устроена кухня A/B-тестов во Flocktory

От гипотезы в месяц до гипотезы в день, или Как устроена кухня A/B-тестов во Flocktory

Как наладить A/B-оптимизацию в вашей компании