Методика, которую использовал Евгений, лежит в основе принципа многоруких бандитов. Название связано с игровыми автоматами в казино, “однорукими бандитами”. Представьте: вы заходите в казино и видите множество таких автоматов. Каждый раз, когда вы дёргаете за ручку, вы выигрываете какую-то сумму денег. У вас есть ограниченное количество попыток дёрнуть за ручку. По закону вероятности некоторые автоматы приносят больше денег, чем другие. А вы, конечно, хотите выиграть как можно больше. И если бы вы заранее знали, какие автоматы приносят больше денег, на каких стоит продолжать играть, а какие оставить, то сорвали бы куш.
Отличная статья, спасибо! А вы выводите уже в админку результаты по каждому варианту онлайн?
Да, при интеграции с AppsFlyer
Утверждали ли варианты экранов c AppReview перед тестированием? Какой в итоге вариант победил?
Когда отправляли билд с тестом на проверку, в сопроводительном сообщении написали, что проводят а/б тест экранов оплаты, и приложили скриншоты самих экранов. Также писали, что чтобы посмотреть, как работают все, нужно с 4 девайсов открыть приложение.
Что модерация сделала с этим сообщением мы не знаем, но билд пропустили)
Выиграл вариант, который первый на картинке.
Интересный кейс, отличная идея для оптимизации. Я не очень поняла как Евгений считал доверительные интервалы каждый день, если речь идет о конверсиях, те у него было фактически 28 цифр за 7 дней (пока каждой картинке одна абсолюная конверсия в день), c чем он сравнивал эти цифры с историческими данными?
И какой пропорции перераспределялись пользователи?
По поводу 28 цифр за 7 дней, тут не совсем верно, у нас было 4 значения конверсии каждый день, и мы их каждый день обновляли.
Мы считаем конверсию из инсталла в покупку (можно считать из просмотра экрана оплаты в покупку, так будет быстрее, но в кейсе мы пишем про конверсию из инсталла в покупку, так как это более распространённая метрика).
Например, за первый день на одном варианте теста у нас было 1000 пользователей и 60 покупок, мы можем посчитать доверительный интервал. На втором варианте — 1000 пользователей и 50 покупок, тут тоже можем посчитать интервал, и так далее. На следующий день мы берём данные за оба дня и снова считаем интервалы.
И эти интервалы мы сравниваем между собой, чтобы понять какой вариант лучше.
Как это работает:
Когда значение верхней границы интервала для одного варианта станет меньше, чем нижняя граница интервала другого варианта, это значит, что другой вариант работает лучше (с разными уровнями достоверности).
Вы можете попробовать воспользоваться бесплатным калькулятором доверительных интервалов от mindbox https://mindbox.ru/ab-test-calculator/, нужно выбрать вкладку «Итоги тестирования» (https://take.ms/70Lcd)
По поводу пропорций — сколько трафика какому варианту мы отдавали при ручном распределении, сейчас эти данные уже сложно найти, но суть в том, что мы отдавали текущему лидеру больше трафика. А какие именно доли — это не так важно.
Интересный подход. Сходу появились вопросы.
Если говорить про оптимизацию расходов на вашем примере, то
1) в чем смысл оставлять 3 и 4 вариант в тесте, то есть тратить деньги на трафик, если очевидно, что их в расчет не стоит брать. Вместо этого на 3ий день трафик полностью можно было бы перераспределить на 2 лидирующих варианта, тем самым приблизившись к 100% инстала.
2) к тому же на маленьком кол-ве пользователей искажается статистика. (условно, если из 10 человек установило 6, то это не значит, что конверсия 60%). И доверительный интервал также может не сработать на маленькой выборке.