Кейс: как мы потеряли $7500 на A/B-тестах мобильного приложения, но научились их проводить

Про важность A/B-тестирования написаны сотни статей, книг, примерно столько же записано вебинаров. Кратный рост продуктов без проведения экспериментов сейчас уже практически невозможен. Но всё равно по разным причинам не все их проводят. Самый распространённый аргумент: A/B-тесты — это долго и дорого, особенно для небольших проектов. Разбираемся, е…

4 варианта пейволлов, участвовавших в тесте. Последний пейволл на картинке — изначальный вариант в приложении до теста.
1111

Интересный подход. Сходу появились вопросы.
Если говорить про оптимизацию расходов на вашем примере, то
1) в чем смысл оставлять 3 и 4 вариант в тесте, то есть тратить деньги на трафик, если очевидно, что их в расчет не стоит брать. Вместо этого на 3ий день трафик полностью можно было бы перераспределить на 2 лидирующих варианта, тем самым приблизившись к 100% инстала. 
2) к тому же на маленьком кол-ве пользователей искажается статистика. (условно, если из 10 человек установило 6, то это не значит, что конверсия 60%). И доверительный интервал также может не сработать на маленькой выборке.

Ответить

1. Смысл в мат. статистике, мы вели тест до тех пор, пока доверительные интервалы не разойдутся. То, что на третий день 3 и 4 вариант показывали себя хуже, не значит что они на самом деле хуже с математической точки зрения. В нашем кейсе совпало что да, но это не правило, это скорее исключение.

2. Смысл доверительного интервала как раз в том, чтобы даже на маленькой выборке понять, значимы изменения или нет. Например, у нас есть два варианта, в первом купили 6 из 10, во втором 8 из 10. CR 60% и 80% соответственно. Но с точки зрения мат. статистики и доверительных интервалов, эти варианты не различаются, как раз потому что слишком мало пользователей в выборке.

Попробуйте поиграться с калькулятором а/б тестов, чтобы лучше понять как это работает, например вот тут — https://mindbox.ru/ab-test-calculator/

Ответить