{"id":14285,"url":"\/distributions\/14285\/click?bit=1&hash=346f3dd5dee2d88930b559bfe049bf63f032c3f6597a81b363a99361cc92d37d","title":"\u0421\u0442\u0438\u043f\u0435\u043d\u0434\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u043b\u0438 \u043f\u0443\u0442\u0435\u0448\u0435\u0441\u0442\u0432\u0438\u044f","buttonText":"","imageUuid":""}

Как посчитать статистическую значимость на пальцах

Бывает, нужно понять значима ли разница в аб эксперименте, но посчитать ее на специальном калькуляторе несподручно. Я разобрался и нашел способ считать статзначимость в прямом смысле на пальцах.

Подписывайтесь на канал, чтобы не пропустить клевые лайфхаки и истории про пет-проекты.

Итак, есть данные эксперимента по дням или по часам для контрольной и экспериментальной групп.

Ключевой вопрос: экспериментальная группа действительно идет выше, или это случайность?

Чтобы понять это, делаем следующее:

  1. Выкидываем дни, когда данные в эксперименте и контроле совпали. Остается 12 дней, потому что на четвертый день количество продаж совпало.

  2. Считаем сколько дней экспериментальная группа отклонялась в нетипичную сторону. В нашем случае было 2 дня — восьмой и девятый — когда эксперимент показал себя хуже контроля. В остальные дни он шел лучше.

  3. Из количества дней эксперимента вычитаем 6 и делим на 3 с округлением вниз. Столько нетипичных отклонений можно допустить, но все равно достоверно считать, что разница значима. В нашем случае (12-6)/3 = 2. То есть для 12 дней эксперимента результат значим, если отклонений два или меньше. В этом эксперименте у нас только два отклонения — это значит, что эксперимент идет значимо выше контроля.

Приятная особенность этого критерия — его можно применять к любым метрикам: и к конверсиям, и к уникам, и к просто абсолютным величинам, например деньгам. Вместо дней можно брать часы или недели.

Если критерий говорит, что результат значим — этому можно доверять. Если говорит, что не значим, но субъективно кажется, что должен быть значим, то воспользуйтесь другими более мощными критериями.

У критерия есть ограничение: если эксперимент длился 5 дней или меньше, то критерий всегда скажет, что результат не значим. Но стоит ли оценивать эксперименты по пяти дням — большой вопрос.

Как это работает

Я использовал симметричный критерий знаков — он универсальный и прост в расчете. Для него есть таблица значений: при каком количестве данных сколько можно допустить нетипичных отклонений. Я приблизил эту таблицу формулой (n-6)/3. На графике видно, что формула достаточно точно повторяет данные из таблицы. Формула иногда разрешает чуть меньшее количество отклонений — это значит, что мы получили чуть более осторожный критерий.

Итого

Чтобы посчитать статзначимость на пальцах:

  1. Выкидываем дни, когда данные в эксперименте и контроле совпали.
  2. Вычитаем 6 и делим на 3 количество дней эксперимента.
  3. Если нетипичных отклонений меньше или равно этому числу — результат значим.

Другие прикольные темы в телеграм канале, не пропустите.

Удачных экспериментов вам

0
1 комментарий
Кирилл Казаков

Достаточно одной ссылки на канал, незачем давать ее в начале и в конце.

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда