Не всем A/B-тестам можно доверять: чек-лист проверки с примерами

А/В-тестирование — это хороший метод, чтобы понять, сработала гипотеза или нет. Поэтому у кейсов, где результаты подтверждены А/В-тестированием, больше кредит доверия. Бывает, что в кейсе не описывают методологию тестов и статические выкладки. Это может говорить о том, что автор пытается слишком вольно интерпретировать результаты теста.

В закладки

Чек-лист хорошей статьи об A/B-тестах

Во время чтения любой статьи про А/В-тест мысленно проверьте ее по чек-листу. Если по итогу несколько пунктов не выполнено - это признак возможной манипуляции и некачественно проведенного исследования.

Итак, в хорошем исследовании:

1. Явно указан показатель, который измеряли в А/В-тесте

Разные показатели измеряются по-разному. Конверсию сравнить в двух группах - просто, средний чек и выручку - сложнее. Чем более явно в статье указано, что именно измеряли, тем больше ей доверия. Если речь идет о конверсии, указано из чего и куда эта конверсия.

2. Указан уровень доверия для каждого показателя, относительно которого делается вывод А/В-теста

Уровень доверия в результате — важнейший показатель теста; он показывает, на сколько мы можем доверять результату. Как правило, больше 95% — круто, больше 90% — достаточно. Если уровень доверия вообще не указан, возможно что-то не так.

Например, уровень доверия 95% говорит о том, что в 95% экспериментов (если бы мы делали не 1, а 1000 тестов) мы правильно обнаружим, что разница есть, соответственно в 5% случаях мы решим что разница есть, и ошибемся.

3. Если вариантов теста больше 2х, то они сравнены попарно

А/В-тесты с тремя и более вариантами - это правда сложно, с точки зрения организации и подведения итогов. Для таких тестов нужна большая выборка, и в результате каждый вариант должен быть сравнен с каждым - A c B, B c C, C c A в случае трех вариантов. Такие тесты могут позволить себе компании с очень большим трафиком.

4. Общий вывод статьи касается только проведенных А/В-тестов

Если в статье есть обобщения на основании небольшого количества тестов - скорее всего что-то приукрашено.

Как использовать чек-лист

А теперь на примерах разберем, как применять чек-лист (откройте любую аналитическую статью с А/В-тестами и сделайте то же самое).

Пример 1. “В магазине косметики письмо с блоком преимуществ в виде списка увеличивает click rate”

Описание

Уральский интернет-магазин косметики провел мультивариантный тест шаблона email для посетителей сайта за последний месяц:

  • Вариант А: стандартный шаблон

  • Вариант B: стандартный с добавлением блока преимуществ списком

  • Вариант C: стандартный с добавлением блока преимуществ плиткой

  • Вариант D: стандартный с добавлением блока преимуществ списком + кнопка

  • Вариант E: стандартный с добавлением блока преимуществ плиткой + кнопка

Тест показал, что по показателю Click rate победил вариант D с уровнем доверия в 95%.

Общий вывод статьи - “теперь в нашем письме мы используем блок преимуществ списком и добавляем кнопку. Использовать мультивариантный тест оказалось очень удобно, т.к. можем сравнить сразу много вариантов”

Проверим чек-листом

1. Явно указан показатель, который измеряли в А/В-тесте - "+"

Показатель указан, это Click rate. В идеале, стоит еще указывать, каким образом рассчитывался показатель.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста - "+"

Уровень доверия обозначен, 95%.

3. Если вариантов теста больше 2х, то они сравнены попарно - "–"

Аналитики не описали, как сравнивали варианты между собой. Это вызывает первое сомнение в корректности теста. Действительно ли вариант Е настолько хорош, что оказался значимо лучше в сравнении со всеми остальными вариантами?

Есть и второе сомнение. Посмотрите, сколько человек потребуется для проведения А/В-теста с 2 вариантами и мультивариативного теста на 5 вариантов (рассчитано с помощью калькулятора А/В-тестов):

Размер выборки для A/B-теста из 2х вариантов
Размер выборки для A/B-теста из 5 вариантов

в 5 раз больше на каждый вариант!

Такие тесты могут позволить себе только компании с большим трафиком. Если вы подозреваете, что в кейсе описан не такой бизнес или выборка явна узкая, возможно исследование проведено неверно.

4. Общий вывод статьи касается только проведенных А/В-тестов - "+"

Общий вывод статьи касается только проведенного теста. Все в порядке.

Итог:

Несмотря на то, что 3 пункта чек-листа из 4 выполнены, корректность исследования вызывает сомнения. Выборка для теста кажется не очень большой (только посетители сайта за последний месяц для интернет-магазина косметики) - достаточна ли она для проведения теста или аналитик совершил распространенную ошибку при снятии результата теста? Также в статье нет попарного сравнения вариантов.

Пример 2. «Хиты продаж снижают выручку рассылок»

Описание

Мы провели тест email-рассылки Next best offer (следующее лучшее предложение покупки).

  • Вариант А: отправили хиты продаж
  • Вариант B: отправили персональные рекомендации
  • Вариант С: письмо не отправлялось. Сегмент выступал в качестве контрольной группы.

Результаты:

Общий вывод статьи: «Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%. Вместе с небольшим снижением среднего чека, это дает увеличение выручки на 4%.

Использование блока рекомендаций “Хиты продаж” приводит к снижению выручки на 20%»

Проверим чек-листом

Давайте разберем этот пример. Казалось бы, все очевидно — персональные рекомендации приводят к увеличению выручки, хиты продаж выручку уменьшают.

Сильный вывод. Посмотрим, что говорит чек-лист.

1. Явно указан показатель, который измеряли в А/В-тесте - "+/-"

Из таблицы можно сделать вывод, что измеряли сразу 3 показателя: конверсию, средний чек и выручку. По вступлению не ясно, на основе какого из показателей будет делаться вывод кейса.

2. Указан уровень доверия результату для каждого показателя, относительно которого делается вывод А/В-теста - "–"

В данном примере можно выделить 3 вывода о показателях:

  1. Персональные рекомендации увеличивают конверсию на 30,9%

    Показатель: конверсия в заказы

    Уровень доверия 95%

  2. Хиты продаж уменьшают выручку на 20%, средний чек на 10%, конверсию на 9,1%

    Показатель: выручка, конверсия, средний чек

    Уровень доверия - не указан ни для одного показателя

  3. Персональные рекомендации увеличивают выручку на 4% - выручка измеряется гораздо сложнее чем конверсии, и часто значимой разницы выручки не видно. В примере значимость выручки никак не исследовалась.

    Показатель: выручка

    Уровень доверия - не указано

Итого, из трех выводов кейса верить можно только первому - “Персональные рекомендации увеличивают конверсию на 30,9% с уровнем доверия 95%”. Остальные два не имеют под собой достаточных оснований.

3. Если вариантов теста больше 2х, то они сравнены попарно - "–"

В тесте исследовалось целых 3 варианта - “Хиты продаж”, “Персональные рекомендации” и “Контрольная группа”. Однако, мы видим только сравнение варианта “Персональные рекомендации” с двумя другими:

“Персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%”

Вариант с хитами продаж представляется как занижающий конверсию и выручку, хотя значимость по сравнению с контрольной группой не оценивается.

Давайте представим, что мы знаем размеры каждого сегмента и количество купивших клиентов в этом кейсе, а не только % прироста:

Проверим уровень доверия разницы в конверсии между вариантами (используем калькулятор A/B-тестов):

Оказывается, что варианты B (контрольная группа) и С (хиты продаж) могут значимо не различаться!

То есть, вывод “Хиты продаж уменьшают конверсию на 9,1%” не верен. Про выручку и средний чек не говорим, так как они не проверены на значимость в кейсе вовсе.

4. Общий вывод статьи касается только проведенных А/В-тестов - "+/–"

Субъективный пункт. В данном примере основным выводом можно считать тот, который в заголовке - “Хиты продаж снижают выручку от рассылок”

Такой вывод звучит очень обобщающе. Может сложиться впечатление, что такое происходит всегда, хотя приведен пример только одного теста, который содержит неточности.

Итог:

Вывод, который можно сделать из такого теста, — “Персональные рекомендации на 30,9% лучше конвертируют получателей письма в заказы, по сравнению с контрольной группой и “Хитами продаж”. Но если верить описанию теста, то напрашивается вывод, что рекомендации “Хиты продаж” занижают выручку, что не подтверждается.

Заключение

A/B-тесты - лучший из известных нам инструментов оценки эффективности маркетинговых механик. Их нужно делать как можно больше, проверять гипотезы и анализировать результаты. Но обратная сторона A/B-тестов - требования к соблюдению определенных правил и методологии, чтобы их результатам можно было доверять.

Наверное, любой аналитик или маркетолог хотя бы раз испытывал соблазн подогнать выводы теста под желаемый результат. Но мы призываем всех, и в первую очередь себя, быть честными и делать тесты прозрачно.

Надеемся, этот чек-лист позволит авторам статей улучшать качество материалов, а читателям более критично относиться к результатам и сделанным выводам.

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Игорь Калиновский", "author_type": "self", "tags": [], "comments": 3, "likes": 12, "favorites": 33, "is_advertisement": false, "subsite_label": "marketing", "id": 72417, "is_wide": false, "is_ugc": true, "date": "Tue, 25 Jun 2019 16:16:22 +0300", "is_special": false }
0
{ "id": 72417, "author_id": 315202, "diff_limit": 1000, "urls": {"diff":"\/comments\/72417\/get","add":"\/comments\/72417\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/72417"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199113, "last_count_and_date": null }
3 комментария
Популярные
По порядку
4

Игорь, хороший чек-лист, спасибо. Я думаю, вам будет интересно почитать статьи Retail Rocket
- они постоянно используют сплит-тесты и постоянно же немного манипулируют выводами к ним )))

Ответить
4

Марьяна, спасибо! Когда готовили статью, читали разные кейсы, много где видели странности. Свои кейсы тоже смотрели - и там есть что улучшить) Хочется, чтобы было больше доверия тестам, конечно.

Ответить
1

согласна, это очень хороший инструмент, но сейчас его часто используют также манипулятивно, как скриншоты из метрики или аналикса - притянуть за уши, чтобы показать какие мы классные ☹️

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cgxmr", "p2": "gnwc" } } } ] { "page_type": "default" }