Почему A/B-тесты врут: 5 статистических ловушек, в которые попадают даже сеньоры

Почему A/B-тесты врут: 5 статистических ловушек, в которые попадают даже сеньоры

Я проводил A/B-тест для интернет-магазина, где новая кнопка показала рост конверсии на 12%. Мы радовались, выкатили обновление и через неделю получили падение продаж на 8%. Оказалось, мы попали в классическую статистическую яму. С тех пор я пересмотрел подход к экспериментам и теперь вижу, как легко цифры могут обманывать, если не знать правил игры.

Ранняя остановка теста

Самая частая ошибка — смотреть на результаты раньше времени. Тест может показывать значимый рост на третий день просто из-за случайного всплеска трафика. Если остановить эксперимент в этот момент, вы зафиксируете шум как закономерность.

Игнорирование сезонности и внешних факторов

Запуск теста в пятницу вечером и анализ результатов в понедельник утром даст искажённую картину. Поведение аудитории меняется в зависимости от дня недели, праздников, погодных условий и даже новостей. Без учёта этих факторов чистый A/B превращается в гадание.

Ошибка множественных сравнений

Когда команда тестирует пять вариантов кнопки одновременно и объявляет победителя с p-value 0.05, вероятность ложного вывода возрастает до 23%. Статистика не прощает жадности, но многие забывают про коррекцию Бонферрони или другие методы.

Как решить проблему: Расчёт размера выборки заранее

Перед запуском любого теста я считаю необходимый объём трафика через калькулятор мощности. Если для получения значимости нужно 10 тысяч сессий на вариант, я жду, даже если красивые цифры появляются раньше. Терпение в аналитике экономит деньги.

Стратификация и блокировка внешних шумов

Я делю трафик по сегментам: новые/вернувшиеся, гео, устройство. Результаты анализирую внутри каждого слоя отдельно. Это помогает увидеть, где работает гипотеза, а где она маскируется общим фоном. В одном из проектов новая лендинг-страница росла у десктопных пользователей на 9%, но у мобильных падала на 4%. Без стратификации мы бы увидели «нулевой» результат.

Введение холд-аут группы и пост-тест анализа

Я всегда оставляю 5% трафика вне эксперимента. После раскатки обновлённой версии я сравниваю её показатели с холд-аутом в течение двух недель. Это отсекает эффект новизны и подтверждает долгосрочную стабильность изменения.

Итоги по статье

A/B-тест это не волшебная палочка, а инструмент, который требует дисциплины. Считайте выборку до старта. Контролируйте внешние факторы. Не гонитесь за быстрыми победами. Статистика прощает ошибки только тем, кто уважает её правила.

2 комментария