Кейс: как мы потеряли $7500 на A/B-тестах мобильного приложения, но научились их проводить

Про важность A/B-тестирования написаны сотни статей, книг, примерно столько же записано вебинаров. Кратный рост продуктов без проведения экспериментов сейчас уже практически невозможен. Но всё равно по разным причинам не все их проводят. Самый распространённый аргумент: A/B-тесты — это долго и дорого, особенно для небольших проектов. Разбираемся, е…

4 варианта пейволлов, участвовавших в тесте. Последний пейволл на картинке — изначальный вариант в приложении до теста.
1111

Интересный кейс, отличная идея для оптимизации. Я не очень поняла как Евгений считал доверительные интервалы каждый день, если речь идет о конверсиях, те у него было фактически 28 цифр за 7 дней (пока каждой картинке одна абсолюная конверсия в день), c чем он сравнивал эти цифры с историческими данными?
И какой пропорции перераспределялись пользователи?

По поводу 28 цифр за 7 дней, тут не совсем верно, у нас было 4 значения конверсии каждый день, и мы их каждый день обновляли.

Мы считаем конверсию из инсталла в покупку (можно считать из просмотра экрана оплаты в покупку, так будет быстрее, но в кейсе мы пишем про конверсию из инсталла в покупку, так как это более распространённая метрика).

Например, за первый день на одном варианте теста у нас было 1000 пользователей и 60 покупок, мы можем посчитать доверительный интервал. На втором варианте — 1000 пользователей и 50 покупок, тут тоже можем посчитать интервал, и так далее. На следующий день мы берём данные за оба дня и снова считаем интервалы.
И эти интервалы мы сравниваем между собой, чтобы понять какой вариант лучше.

Как это работает:

Когда значение верхней границы интервала для одного варианта станет меньше, чем нижняя граница интервала другого варианта, это значит, что другой вариант работает лучше (с разными уровнями достоверности).

Вы можете попробовать воспользоваться бесплатным калькулятором доверительных интервалов от mindbox https://mindbox.ru/ab-test-calculator/, нужно выбрать вкладку «Итоги тестирования» (https://take.ms/70Lcd)

По поводу пропорций — сколько трафика какому варианту мы отдавали при ручном распределении, сейчас эти данные уже сложно найти, но суть в том, что мы отдавали текущему лидеру больше трафика. А какие именно доли — это не так важно.