Статистическая мощность: что это и как её рассчитать в A/B-тесте

Здравствуйте. На связи Виктория — контент-менеджер компании Altcraft. Сегодня расскажем, что такое статистическая мощность и зачем она нужна.

Понимание статистической мощности, или «чувствительности» теста, является неотъемлемой частью планирования перед A/B-тестированием. Это поможет внедрить больше изменений на сайте для увеличения дохода.

Статистическая мощность: что это и как её рассчитать в A/B-тесте

Статистическая мощность — вероятность обнаружения важных результатов, если определённый эффект действительно существует. Это позволяет выявить различия между вариантами тестирования, когда они реально есть.

Прежде чем перейти к компонентам статистической мощности, важно понимать, какие бывают ошибки и как их избежать.

Ошибки I типа

Ошибка I типа — это ложноположительный результат: он отвергает нулевую гипотезу, которая на самом деле верна.

Нулевая гипотеза — это утверждение, что какой-либо разницы или эффекта между двумя событиями или феноменами не существует.

Проще говоря, тест показывает наличие разницы между вариантами, хотя на самом деле никакой разницы нет. Несоответствие получается из-за того, что тест выходит из-под контроля из-за ошибок или случайностей.

Вероятность ошибки I типа, которая обозначается греческой буквой альфа (α), относится к уровню, который уже является значимым для A/B-теста. Если у теста 95% уровень доверия, это значит, что оставшиеся 5% — это вероятность ошибки I типа (1,0 - 0,95 = 0,05).

Если 5% — это слишком много, можно снизить вероятность ложноположительного результата, увеличив уровень доверия до 99% или даже выше. В этом случае вероятность ошибки I типа уменьшится с 5% до 1%. Но такое снижение вероятности несёт в себе определённые риски.

Увеличение уровня доверия повышает возможность ошибки II типа. Между ошибкой альфа и бета существует обратно пропорциональная взаимосвязь: снижается одна ошибка — повышается другая, и наоборот.

Сокращение уровня альфа-ошибок (например, с 5% до 1%) уменьшает статистическую мощность вашего теста. Критическая зона становится меньше, и чем она меньше, тем ниже вероятность отклонения нулевой гипотезы, и, следовательно, тем ниже и уровень мощности. Из этого следует, что если вам нужно больше мощности, можно, как вариант, увеличить риск альфа-ошибок (например, с 5% до 10%).

Чем меньше критическая зона, тем ниже уровень статистической мощности

Ошибки II типа

Ошибки II типа — это ложноотрицательный результат: он не отклоняет действительно ложную нулевую гипотезу. Иначе говоря, тест не видит существенного улучшения в одном из вариантов, хотя на самом деле это улучшение есть.

Вероятность совершения ошибки II типа, или бета-ошибки (β), обратно пропорциональна статистической мощности (1 - β). Если риск совершения ошибки II типа (β) составляет 20%, уровень мощности будет 80% (1,0 - 0,2 = 0,8). Можно снизить риск ложноотрицательного результата до 5-10%, и тогда уровень мощности станет 90-95%.

Выбранный уровень мощности контролирует ошибки II типа: чем выше уровень мощности, тем ниже вероятность совершения ошибки II типа. Поскольку альфа- и бета-ошибки обратно пропорциональны, когда вы проводите тесты с крайне низкими значениями альфа-ошибок (например, 0,001%), это сильно увеличит риск ошибки II типа.

Статистическая мощность имеет обратную связь с ошибками типа II. Благодаря ей можно контролировать вероятные ложноотрицательные результаты. Вы стремитесь снизить риск ошибок типа I до приемлемого уровня, сохраняя значительную мощность, чтобы выявить улучшения.

Найти нужный баланс — это целая наука. Если один из ваших вариантов выигрышнее, это реально обнаружить с помощью правильно организованного теста. А если мощность тестирования недостаточная, вы рискуете отказаться от хорошего варианта по ошибке.

Какие переменные влияют на этот баланс, когда речь идёт о статистической мощности? Давайте рассмотрим.

Рассматривая каждую переменную, которая влияет на статистическую мощность, помните: основная цель — контролировать степень ошибок. Есть четыре фактора, которые можно регулировать:

Размер выборки.
Минимальный обнаружимый эффект (MDE).
Уровень значимости (α).
Желаемый уровень мощности (подразумеваемый уровень ошибки II типа).

1. Размер выборки

Выборка должна быть достаточно большой, только тогда вы проведёте качественный сплит-тест. Важно рассчитать её размер так, чтобы он обеспечивал достаточную мощность для теста и при этом не оказался слишком большим, чтобы длительность теста сильно не увеличивалась (более длительный тест стоит дороже и замедляет темп проведения тестирования).

У каждого варианта и анализируемого сегмента должно быть значительное количество пользователей. Чтобы у тестов всегда получалась хорошая статистическая мощность, надо планировать размер выборки заранее. Иначе можно не заметить, что вариаций и сегментов слишком много. Если вы увидите это на позднем этапе, в итоге получите после теста много групп с маленьким количеством пользователей.

Рассчитывайте получить статистически значимый результат в разумный период времени — не меньше одной недели или одного бизнес-цикла. Чаще всего рекомендуют проводить тестирование от 2 до 4 недель. Если делать его дольше, у вас могут появиться проблемы, связанные с «загрязнением» выборки и удалением файлов cookie.

Следует установить минимальный размер выборки и заранее задать временные рамки. Тогда вы избежите распространённой ошибки: провести сплит-тест «вслепую» и завершить его до получения статистически значимой разницы.

2. Минимальный обнаружимый эффект (MDE)

Минимальный обнаружимый эффекта (MDE) — это разница результатов, которую планируется выявить.

Небольшие различия сложно обнаружить, и для этого требуется более крупная выборка. Значимый эффект можно выявить с меньшими размерами. Тем не менее, эти «улучшения» на основе небольших выборок могут оказаться ненадёжными.

Дело в том, что не существует фиксированного размера выборки, поэтому номинальный уровень и вилка значений, которым можно доверять, являются ненадёжными.

Если бы действовало какое-нибудь правило, где надо остановиться, или существовала чёткая вилка размеров выборки, 500%-ное улучшение на основе очень маленькой выборки, вероятно, сопровождалось бы уровнем доверия в 95% из вероятности +5% до +995%.

3. Уровень значимости

Результат теста считается статистически значимым, если предположить, что нулевая гипотеза неверна.

Это определение можно упростить до более простого пояснения: если сплит-тесту для двух лендингов можно на 95% доверять в пользу одного варианта, есть всего 5%-ная вероятность, что наблюдаемое улучшение — результат случайности, или 95%-ная вероятность, что разница происходит не из-за случайности.

5% — это общепринятый начальный уровень значимости в онлайн-тесте, и, как уже упоминалось ранее, такова же и вероятность совершения ошибки I типа. Альфа в 5% значит, что вы допускаете 5%-ную вероятность ошибочно отказаться от нулевой гипотезы.

Если вы снижаете уровень альфа с 5% до 1%, вы в то же время увеличиваете вероятность совершения ошибки II типа при прочих равных. А увеличение риска совершить ошибку II типа снижает эффективность тестирования.

4. Желаемый уровень мощности

При 80%-ной мощности есть 20%-ная вероятность не обнаружить реальную разницу. Если 20% для вас слишком большой риск, можно снизить эту вероятность до 10%, 5% или даже 1%, и это увеличит статистическую мощность до 90%, 95% и 99% соответственно.

Прежде чем думать, что вы решите все свои проблемы, запуская тесты с мощностью 95% или 99%, поймите, что каждое увеличение мощности требует соответствующего увеличения объёма выборки и времени, необходимого для проведения теста.

Так какая же мощность вам действительно нужна? Общепринятым уровнем приемлемого риска ложноотрицательных результатов в оптимизации конверсии считается 20% с соответствующим уровнем мощности в 80%.

Нет какого-либо жёсткого установленного стандарта в 80% мощности, но это разумный баланс между риском альфа- и бета-ошибок.

Надо учитывать следующее:

какой риск для вас приемлемый, когда вы реально можете упустить качественное улучшение;
какой минимальный объём выборки, необходимый для достижения желаемой мощности каждого варианта.

Можно использовать калькулятор A/B тестов. Следует ввести значения и определить, какой объём выборки нужен для достаточной мощности теста. Если три вводные известны, вычисляем четвёртую.

Например, вы определили, что необходим объём выборки в 681 клиента на каждый вариант. Расчёт выполнили на основе вводных: мощность теста 80% и альфа 5% (95% статистической значимости). Вы знали, что уровень конверсии в контрольной группе составляет 14%, и ожидали, что вариант будет иметь показатель 19%.

Точно так же, если знать объём выборки для каждого варианта, альфу и желаемый уровень мощности (например, 80%), можно найти минимальный размер эффекта MDE, необходимый для достижения этой мощности, в данном случае — 19%.

Расчёт минимального обнаружимого эффекта (MDE)

Что делать, если увеличить объём выборки невозможно

Может так случиться, что вам потребуется больше мощности, но увеличить объём выборки не получится: например, сегмент внутри проводимого теста слишком маленький, или посещаемость страницы слишком низкая.

Например, вы вводите свои параметры в калькулятор A/B-тестирования, и он требует объём выборки более 8 000.

Если у вас нет возможности достичь этого минимума, или это займет долгие месяцы, как вариант можно увеличить MDE. В этом примере увеличение MDE с 10% до 25% снижает объём выборки до 1 356 для каждого варианта.

Но часто ли действительно получается достичь MDE в 25%? И насколько снизится качество? В таком случае наилучший выход — снизить уровень уверенности до 90% при условии, что вы готовы к 10%-ному риску ошибки I типа.

Определение необходимого размера выборки

Увеличение MDE для получения нужного размера выборки

Снижение уровня уверенности для получения необходимого объёма выборки

С чего начать? Аналитики сначала привязываются к размеру выборки (тест должен быть завершен в течение N количества недель) и потом произвольно выкручивают остальные значения, пока результат их не устроит.

Правильный баланс — это:

вдумчивое планирование, чтобы определиться с тем, какие именно значения отрегулировать;
обращение в выгоду измерений потенциальных колебаний ROI для любого изменения тестируемых переменных.

Статистическая мощность помогает отслеживать ошибки, подтверждает результаты теста и существенно увеличивает вероятность обнаружения практически значимых факторов эффективности.

Применяйте следующие рекомендации:

1. Проводите тесты в течение 2-4 недель.

2. Используйте калькулятор тестирования, чтобы рассчитать правильную мощность тестов.

3. Соблюдайте минимальные требования по объёму выборки.

4. Если нужно, тестируйте более значительные изменения и наблюдайте за их эффективностью.

5. Используйте статистическую значимость только после выполнения минимальных требований по объёму выборки.

6. Планируйте достаточную мощность для всех вариантов и в дальнейшем проводите тест сегментов.

Источник: CXL

Подписывайтесь на наш телеграм-канал. Там вы найдёте актуальные новости в области digital-маркетинга, полезные статьи и интересные исследования. Будьте в теме вместе с нами :)

Статистическая мощность: что это и как её рассчитать в A/B-тесте

Что такое статистическая мощность

Два типа ошибок

Переменные, которые влияют на статистическую мощность

Как рассчитать статистическую мощность для тестирования

Заключение