Лого vc.ru

A/B-тесты: 5 причин не верить их результатам

A/B-тесты: 5 причин не верить их результатам

Специалист по оптимизации конверсии и маркетолог компании Dynamic Yield Янив Навот составил пять причин, почему не нужно следовать результатам A/B-тестирования. В рубрике Growth Hacks перевод его статьи.

Поделиться

Хочу признаться: я отношусь к большинству кейсов A/B-тестирования с позиции «люблю или ненавижу». Мне нравится читать тематические исследования про процессы оптимизации конверсии с использованием A/B-тестирования. Это всегда было моим хобби и вдохновляло на эксперименты. Но в один день я понял, что магия большинства тематических исследований в значительной мере опирается на неизвестность.

В тот день я решил пойти другим путем и перестал читать популярные отчеты о тестированиях. Есть огромное количество ресурсов, которые приводят реальные кейсы, демонстрирующие значительное повышение конверсии и прибыли. Хотя многие из нас любят читать подобные вещи, мы должны придавать больше внимания деталям: с критикой относиться к данным, предположениям и методикам. Я считаю, что каждый такой кейс должен сопровождаться предупреждающим сигналом:

Не думайте, что вы получите аналогичные результаты на вашем сайте без предварительного самостоятельного тестирования.

Вот список причин, которые я привожу в качестве «синдрома слепоты» кейсов по A/B-тестированию:

1. То, что работает для одного проекта, не обязательно будет работать для другого

Обобщая любой результат A/B-тестирования, основываясь на одном отдельном случае, можно получить ложные выводы. Поступая таким образом, вы игнорируете специфику аудитории. Некоторые идеи будут работать на вашем сайте, но многие сложно назвать универсальными.

2. Качество тестов изменчиво

Я боюсь, что большая часть кейсов не включает информацию, необходимую для оценки качества их проведения. На самом деле, некоторым из них не хватает достоверных статистических выводов. При изучении очередного исследования задайте себе вопросы: «Какова была полная методология эксперимента? Были ли отклонения данных, которые привели к искажению всего результата теста? Какова статистическая значимость всей выборки? Каков размер выборки посетителей, на которой проводился эксперимент? Учли ли они распространенные ошибки, влияющие на обоснованность результатов?»

3. Результаты эксперимента могут быть непостоянны во времени

Результаты любого A/B-тестирования могут отличаться на разных промежутках времени. Другими словами, они действительны только для того момента, когда был совершен эксперимент. Для того, чтобы обобщить результаты на всей аудитории и доказать, что улучшения были действительны в течение времени, мы должны периодически запускать и проводить этот же эксперимент. В большинстве кейсов по A/B-тестированию отсутствует подтверждение заметно отсутствие устойчивости результатов, что делает их менее надежными.

4. Ложные гипотезы и выгодная интерпретация результатов

Многие из нас стремятся связать определенные результаты с конкретным поведением. Мы ищем ответ на вопрос «Почему?» и забываем, что не тестировали это «Почему?» в первую очередь. Приписывание результатов эксперимента определенному поведенческому фактору является естественным, но это может действовать в качестве катализатора для ложных предположений и неверных толкований. 

Когда мы проводим эксперимент, мы ищем статистически значимую корреляцию между изменениями и реакцией на них. Достижение статистически значимых результатов не означает, что есть определенная причинно-следственная связь между ними. Просто это слишком трудно измерить с использованием традиционного A/B-теста. Тенденция вводить собственные интуитивные причины еще больше подтверждает тот факт, что всегда есть место для случайности, и мы, как правило, интерпретируем результаты в более удобном для нас ключе.

5. Эксперименты, которые не сработали хорошо, как правило, не публикуются

Большинство A/B-тестов неудачные по множеству причин: от неверного выполнения до ошибочных гипотез. На самом деле, мы редко слышим о неудачных кейсах, хотя они могут дать определенное понимание. Естественно, люди предпочитают публиковать свои истории успеха, а не провалы. Также зачастую истории упрощают, чтобы они выглядели довольно легкими. Правда в том, что A/B-тестирование представляет собой долгий и трудный процесс со многими препятствиями и сюрпризами. 

A/B-тестирование представляет собой долгий и трудный процесс со многими препятствиями и сюрпризами.

Сигналы надежности А/B-теста

Я не говорю, что все кейсы плохи, есть действительно хорошие посреди множества бестолковых. Написание кейсов очень важно, так как вы можете оценить качество эксперимента и отделить зерна от плевел. Мой совет — продолжайте читать исследования и кейсы, но старайтесь найти ответы на вопросы, которые я поднял в этой статье.

Проверьте надежность изучаемых кейсов:

  • Какова была первоначальная гипотеза? 
  • Как долго проводился тест? 
  • Каков размер выборки? 
  • Какова аудитория эксперимента? 
  • Какой инструмент использовался для A/B-тестирования? 
  • Проводилось ли повторное тестирование для проверки устойчивости результатов?

Я рекомендую использовать калькулятор Эвана Миллера для определения объема выборки и таблицу статистической значимости Авинаша Каушика для того, чтобы быть уверенным в результатах эксперимента.

Опубликованные тематические исследования являются отличной отправной точкой для получения идей для тестирования, изучения передового опыта и понимания общих вариантов использования. Но вы всегда должны критиковать методологию проведения и интерпретацию экспериментов и никогда не следовать им вслепую. Будьте настроены скептически и всегда проверяйте идеи и предположения на собственном сайте и целевой аудитории.


Подписывайтесь на Growth Hacks в специальных аккаунтаух на FacebookTwitter и во «ВКонтакте». 

Присылайте свои материалы на what@growthhacks.ru, и вы тоже сможете стать автором рубрики Growth Hacks.

Статьи по теме
Андрей Ежов, Aviasales: Как я мучил форму поиска на Hotellook28 августа 2014, 10:25
Что делать, если результаты A/B теста оказались провальными31 июля 2014, 12:55
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

На удивление пустая статья - ни один из приведенных доводов не относится конкретно к недостаткам A/B-тестов. Абсолютно тоже самое можно сказать вообще про любое исследование.

Sergey, посмотрите вот эту статью, может она покажется вам более содержательной, только вчера прочла habrahabr.ru/company/witget/blog/229507/

Danil, могли, но пропустили. Чего сразу ругаться и минусовать коммент, написанный из желания поделиться интересным материалом? =)Буду внимательнее читать ЦП и давать ссылки только на него!

0

У A/B тестирования есть фундаментальный недостаток. Он проявляется не всегда - но определить, сработает он или нет, невозможно. По всем правилам, чтобы четко интерпретировать результаты, надо изменять и тестировать только один элемент за раз. А эффект на пользователя может оказывать и их сочетание. Вероятна ситуация, когда выбор одного из вариантов для первого тестирования локальным успехом - но для всей воронки в целом окажется ограничителем сверху.

Таким образом, по-хорошему надо было б проводить A/B/C/D тестирование, со всеми 4 вариантами для 2 изменений, с 8 - для трех и т.п.

как по мне — превосходная статья, спасибо!

Какие альтернативы предлагает автор статьи?

Всё надо делать с умом. АБ тестирование не такое уж и сложное занятие, если подумать немного.

0

Недавно наши ребята сделали продукт ChangeAgain.me - он добавляет в Google Analytics A/B тесты с визуальным эдитором.

А какие инструменты вы используете для A/B тестов? :)

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Vsevolod Volchansky
Chat Helpdesk

Ему про Фому, он про Ерему))

«Тинькофф банк» анонсировал открытие сети центров разработки
0
FrostBite
ProGamer.ru

Всем. Я за нацию технологий и творчества.

Власти России намерены снизить беспошлинный порог для ввоза интернет-посылок до 500 евро с середины 2018 года
0
Alex Samoylenko

Кандидатам на лучшую мобильную игру в Минске передает привет лучшая мобильная игра в Минске) шучу) Андрей, Ксения, вы молодцы! Игра крутая.

Mushroom Wars 2: рассказ российских разработчиков о том, какой путь прошла игра от концепта до релиза
0
reggaejunkiejew

так в том и вопрос, в статье вообще не сказано чего они там такие умные и красивые настартапили и на антрепренировали.

Дом, который построил Питер Тиль
0
Anton Kuchumov
WorkOut

Спасибо, из всего списка как раз хотел начать с неё.

Лучшие книги 2016 года — выбор Билла Гейтса
0
Показать еще