Почему A/B-тесты врут: 5 статистических ловушек, в которые попадают даже сеньоры
Я проводил A/B-тест для интернет-магазина, где новая кнопка показала рост конверсии на 12%. Мы радовались, выкатили обновление и через неделю получили падение продаж на 8%. Оказалось, мы попали в классическую статистическую яму. С тех пор я пересмотрел подход к экспериментам и теперь вижу, как легко цифры могут обманывать, если не знать правил игры.
Ранняя остановка теста
Самая частая ошибка — смотреть на результаты раньше времени. Тест может показывать значимый рост на третий день просто из-за случайного всплеска трафика. Если остановить эксперимент в этот момент, вы зафиксируете шум как закономерность.
Игнорирование сезонности и внешних факторов
Запуск теста в пятницу вечером и анализ результатов в понедельник утром даст искажённую картину. Поведение аудитории меняется в зависимости от дня недели, праздников, погодных условий и даже новостей. Без учёта этих факторов чистый A/B превращается в гадание.
Ошибка множественных сравнений
Когда команда тестирует пять вариантов кнопки одновременно и объявляет победителя с p-value 0.05, вероятность ложного вывода возрастает до 23%. Статистика не прощает жадности, но многие забывают про коррекцию Бонферрони или другие методы.
Как решить проблему: Расчёт размера выборки заранее
Перед запуском любого теста я считаю необходимый объём трафика через калькулятор мощности. Если для получения значимости нужно 10 тысяч сессий на вариант, я жду, даже если красивые цифры появляются раньше. Терпение в аналитике экономит деньги.
Стратификация и блокировка внешних шумов
Я делю трафик по сегментам: новые/вернувшиеся, гео, устройство. Результаты анализирую внутри каждого слоя отдельно. Это помогает увидеть, где работает гипотеза, а где она маскируется общим фоном. В одном из проектов новая лендинг-страница росла у десктопных пользователей на 9%, но у мобильных падала на 4%. Без стратификации мы бы увидели «нулевой» результат.
Введение холд-аут группы и пост-тест анализа
Я всегда оставляю 5% трафика вне эксперимента. После раскатки обновлённой версии я сравниваю её показатели с холд-аутом в течение двух недель. Это отсекает эффект новизны и подтверждает долгосрочную стабильность изменения.
Итоги по статье
A/B-тест это не волшебная палочка, а инструмент, который требует дисциплины. Считайте выборку до старта. Контролируйте внешние факторы. Не гонитесь за быстрыми победами. Статистика прощает ошибки только тем, кто уважает её правила.