Уровень значимости (𝛼) я выбрал равный 10% (научным стандартом считается 5%). Для нашего двухвыборочного t-теста данный уровень будет достигнут в 30% случаев (на 8-й день мы могли бы закончить тест и получить p-значение ниже уровня значимости). Это значит, что, завершая тест в один из 6 дней, где значение p меньше 10%, мы должны с вероятностью 90% принять факт, что у кампаний есть различия. Дополнительно, если мы следим за результатом в динамике, сработает ошибка подглядывания, о которой можно подробно посмотреть у аналитика Анатолия Карпова. Суть её в том, что, наблюдая накопительный результат и тренд к снижению накопленного p-значения с первого по девятый день, мы, вероятно, отключили бы тест в 9-й день, заключив, что нулевую гипотезу можно отвергнуть с очень высокой вероятностью. Забавно, что в итоге границу в 5% удалось пробить дважды, а главное – получить меньшее значение именно к завершению теста.