{"id":14262,"url":"\/distributions\/14262\/click?bit=1&hash=8ff33b918bfe3f5206b0198c93dd25bdafcdc76b2eaa61d9664863bd76247e56","title":"\u041f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u0442\u0435 \u041c\u043e\u0441\u043a\u0432\u0435 \u0438\u043d\u043d\u043e\u0432\u0430\u0446\u0438\u044e \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u0434\u043e 1,5 \u043c\u043b\u043d \u0440\u0443\u0431\u043b\u0435\u0439","buttonText":"\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435","imageUuid":"726c984a-5b07-5c75-81f7-6664571134e6"}

Не всем A/B-тестам можно доверять: чек-лист проверки с примерами

А/В-тестирование — это хороший метод, чтобы понять, сработала гипотеза или нет. Поэтому у кейсов, где результаты подтверждены А/В-тестированием, больше кредит доверия. Бывает, что в кейсе не описывают методологию тестов и статические выкладки. Это может говорить о том, что автор пытается слишком вольно интерпретировать результаты теста.

Чек-лист хорошей статьи об A/B-тестах

Во время чтения любой статьи про А/В-тест мысленно проверьте ее по чек-листу. Если по итогу несколько пунктов не выполнено - это признак возможной манипуляции и некачественно проведенного исследования.

Итак, в хорошем исследовании:

1. Явно указан показатель, который измеряли в А/В-тесте

Разные показатели измеряются по-разному. Конверсию сравнить в двух группах - просто, средний чек и выручку - сложнее. Чем более явно в статье указано, что именно измеряли, тем больше ей доверия. Если речь идет о конверсии, указано из чего и куда эта конверсия.

2. Указан уровень доверия для каждого показателя, относительно которого делается вывод А/В-теста

Уровень доверия в результате — важнейший показатель теста; он показывает, на сколько мы можем доверять результату. Как правило, больше 95% — круто, больше 90% — достаточно. Если уровень доверия вообще не указан, возможно что-то не так.

Например, уровень доверия 95% говорит о том, что в 95% экспериментов (если бы мы делали не 1, а 1000 тестов) мы правильно обнаружим, что разница есть, соответственно в 5% случаях мы решим что разница есть, и ошибемся.

3. Если вариантов теста больше 2х, то они сравнены попарно

А/В-тесты с тремя и более вариантами - это правда сложно, с точки зрения организации и подведения итогов. Для таких тестов нужна большая выборка, и в результате каждый вариант должен быть сравнен с каждым - A c B, B c C, C c A в случае трех вариантов. Такие тесты могут позволить себе компании с очень большим трафиком.

4. Общий вывод статьи касается только проведенных А/В-тестов

Если в статье есть обобщения на основании небольшого количества тестов - скорее всего что-то приукрашено.

Как использовать чек-лист

А теперь на примерах разберем, как применять чек-лист (откройте любую аналитическую статью с А/В-тестами и сделайте то же самое).

Пример 1. “В магазине косметики письмо с блоком преимуществ в виде списка увеличивает click rate”

Описание

Уральский интернет-магазин косметики провел мультивариантный тест шаблона email для посетителей сайта за последний месяц:

  • Вариант А: стандартный шаблон

  • Вариант B: стандартный с добавлением блока преимуществ списком

  • Вариант C: стандартный с добавлением блока преимуществ плиткой

  • Вариант D: стандартный с добавлением блока преимуществ списком + кнопка

  • Вариант E: стандартный с добавлением блока преимуществ плиткой + кнопка

Тест показал, что по показателю Click rate победил вариант D с уровнем доверия в 95%.

Общий вывод статьи - “теперь в нашем письме мы используем блок преимуществ списком и добавляем кнопку. Использовать мультивариантный тест оказалось очень удобно, т.к. можем сравнить сразу много вариантов”

Проверим чек-листом

1. Явно указан показатель, который измеряли в А/В-тесте - "+"

Показатель указан, это Click rate. В идеале, стоит еще указывать, каким образом рассчитывался показатель.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста - "+"

Уровень доверия обозначен, 95%.

3. Если вариантов теста больше 2х, то они сравнены попарно - "–"

Аналитики не описали, как сравнивали варианты между собой. Это вызывает первое сомнение в корректности теста. Действительно ли вариант Е настолько хорош, что оказался значимо лучше в сравнении со всеми остальными вариантами?

Есть и второе сомнение. Посмотрите, сколько человек потребуется для проведения А/В-теста с 2 вариантами и мультивариативного теста на 5 вариантов (рассчитано с помощью калькулятора А/В-тестов):

Размер выборки для A/B-теста из 2х вариантов
Размер выборки для A/B-теста из 5 вариантов

в 5 раз больше на каждый вариант!

Такие тесты могут позволить себе только компании с большим трафиком. Если вы подозреваете, что в кейсе описан не такой бизнес или выборка явна узкая, возможно исследование проведено неверно.

4. Общий вывод статьи касается только проведенных А/В-тестов - "+"

Общий вывод статьи касается только проведенного теста. Все в порядке.

Итог:

Несмотря на то, что 3 пункта чек-листа из 4 выполнены, корректность исследования вызывает сомнения. Выборка для теста кажется не очень большой (только посетители сайта за последний месяц для интернет-магазина косметики) - достаточна ли она для проведения теста или аналитик совершил распространенную ошибку при снятии результата теста? Также в статье нет попарного сравнения вариантов.

Пример 2. «Хиты продаж снижают выручку рассылок»

Описание

Мы провели тест email-рассылки Next best offer (следующее лучшее предложение покупки).

  • Вариант А: отправили хиты продаж
  • Вариант B: отправили персональные рекомендации
  • Вариант С: письмо не отправлялось. Сегмент выступал в качестве контрольной группы.

Результаты:

Общий вывод статьи: «Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%. Вместе с небольшим снижением среднего чека, это дает увеличение выручки на 4%.

Использование блока рекомендаций “Хиты продаж” приводит к снижению выручки на 20%»

Проверим чек-листом

Давайте разберем этот пример. Казалось бы, все очевидно — персональные рекомендации приводят к увеличению выручки, хиты продаж выручку уменьшают.

Сильный вывод. Посмотрим, что говорит чек-лист.

1. Явно указан показатель, который измеряли в А/В-тесте - "+/-"

Из таблицы можно сделать вывод, что измеряли сразу 3 показателя: конверсию, средний чек и выручку. По вступлению не ясно, на основе какого из показателей будет делаться вывод кейса.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста - "–"

В данном примере можно выделить 3 вывода о показателях:

  1. Персональные рекомендации увеличивают конверсию на 30,9%

    Показатель: конверсия в заказы

    Уровень доверия 95%

  2. Хиты продаж уменьшают выручку на 20%, средний чек на 10%, конверсию на 9,1%

    Показатель: выручка, конверсия, средний чек

    Уровень доверия - не указан ни для одного показателя

  3. Персональные рекомендации увеличивают выручку на 4% - выручка измеряется гораздо сложнее чем конверсии, и часто значимой разницы выручки не видно. В примере значимость выручки никак не исследовалась.

    Показатель: выручка

    Уровень доверия - не указано

Итого, из трех выводов кейса верить можно только первому - “Персональные рекомендации увеличивают конверсию на 30,9% с уровнем доверия 95%”. Остальные два не имеют под собой достаточных оснований.

3. Если вариантов теста больше 2х, то они сравнены попарно - "–"

В тесте исследовалось целых 3 варианта - “Хиты продаж”, “Персональные рекомендации” и “Контрольная группа”. Однако, мы видим только сравнение варианта “Персональные рекомендации” с двумя другими:

“Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%”

Вариант с хитами продаж представляется как занижающий конверсию и выручку, хотя значимость по сравнению с контрольной группой не оценивается.

Давайте представим, что мы знаем размеры каждого сегмента и количество купивших клиентов в этом кейсе, а не только % прироста:

Проверим уровень доверия разницы в конверсии между вариантами (используем калькулятор A/B-тестов):

Оказывается, что варианты B (контрольная группа) и С (хиты продаж) могут значимо не различаться!

То есть, вывод “Хиты продаж уменьшают конверсию на 9,1%” не верен. Про выручку и средний чек не говорим, так как они не проверены на значимость в кейсе вовсе.

4. Общий вывод статьи касается только проведенных А/В-тестов - "+/–"

Субъективный пункт. В данном примере основным выводом можно считать тот, который в заголовке - “Хиты продаж снижают выручку от рассылок”

Такой вывод звучит очень обобщающе. Может сложиться впечатление, что такое происходит всегда, хотя приведен пример только одного теста, который содержит неточности.

Итог:

Вывод, который можно сделать из такого теста, — “Персональные рекомендации на 30,9% лучше конвертируют получателей письма в заказы, по сравнению с контрольной группой и “Хитами продаж”. Но если верить описанию теста, то напрашивается вывод, что рекомендации “Хиты продаж” занижают выручку, что не подтверждается.

Заключение

A/B-тесты - лучший из известных нам инструментов оценки эффективности маркетинговых механик. Их нужно делать как можно больше, проверять гипотезы и анализировать результаты. Но обратная сторона A/B-тестов - требования к соблюдению определенных правил и методологии, чтобы их результатам можно было доверять.

Наверное, любой аналитик или маркетолог хотя бы раз испытывал соблазн подогнать выводы теста под желаемый результат. Но мы призываем всех, и в первую очередь себя, быть честными и делать тесты прозрачно.

Надеемся, этот чек-лист позволит авторам статей улучшать качество материалов, а читателям более критично относиться к результатам и сделанным выводам.

0
3 комментария
Марьяна Дверская

Игорь, хороший чек-лист, спасибо. Я думаю, вам будет интересно почитать статьи Retail Rocket
- они постоянно используют сплит-тесты и постоянно же немного манипулируют выводами к ним )))

Ответить
Развернуть ветку
Игорь Калиновский
Автор

Марьяна, спасибо! Когда готовили статью, читали разные кейсы, много где видели странности. Свои кейсы тоже смотрели - и там есть что улучшить) Хочется, чтобы было больше доверия тестам, конечно.

Ответить
Развернуть ветку
Марьяна Дверская

согласна, это очень хороший инструмент, но сейчас его часто используют также манипулятивно, как скриншоты из метрики или аналикса - притянуть за уши, чтобы показать какие мы классные ☹️

Ответить
Развернуть ветку
0 комментариев
Раскрывать всегда