10 ошибок в A/B-тестировании мобильных приложений

Что влияет на монетизацию продукта? Дизайн продукта, спецпредложения, игровые механики, тарифные планы и прочее. Но для всего этого не существует универсальной формулы, которая бы позволила бесконечно извлекать прибыль, а принимать решения необходимо. В этом случае на помощь приходит A/B тестирование — инструмент, который позволяет количественно измерить эффект от того или иного изменения в продукте.

Не каждое A/B-тестирование обязательно приводит к положительному суммарному экономическому эффекту. В статье мы разберём основные проблемы, возникающие в процессе A/B-тестирования, и основные пути их решения.

Важное условие успешного А/B-теста — правильная сегментация пользователей по различным признакам. Недопустимо, чтобы в разных вариантах эксперимента какая-то группа пользователей сильно преобладала над другой. Например, соотношение мужчин и женщин в контрольной выборке должно быть примерно одинаково соответствующему соотношению из тестового варианта. Если допустить сильное преобладание какой-либо из важных групп, результаты тестирования могут быть абсолютно некорректными. Например, тестовый вариант показал большую конверсию в покупку из-за того, что там преобладали пользователи более новых версий айфонов.

Признаки, по которым мы делим пользователей на группы, определяются индивидуально для каждого продукта, в зависимости от целевой аудитории продукта.

10 ошибок в A/B-тестировании мобильных приложений

Всегда проверяйте, в каких пропорциях разбиты пользователи в ваших вариантах. Доли мужчин, новых пользователей, владельцев новых айфонов должны быть примерно одинаковы для контрольного и тестового варианта. Показывайте ваши тестовые варианты аудитории со схожим составом.

Запуск экспериментов без понимания конкретной бизнес-задачи часто приводит к появлению большого количества тестируемых вариантов. Если вы запускаете такой тест с излишне широким набором альтернативных вариантов дизайна продукта, то при тестировании, к примеру, 10-ти различных вариантов приложения, вероятность прийти к неверному результату будет расти экспоненциально. Это наглядно иллюстрирует проблему множественного тестирования. Поэтому важный этап подготовки к тестированию — детализация проблемы, которую вы хотите решить с помощью эксперимента.

Сфокусируйтесь на проблеме, которую вы хотите решить. Так вы избежите слишком большого количества вариантов для теста.
Если крайне важно включить в A/B-тест несколько тестовых вариантов продукта — используйте статистические поправки.

Поведение пользователей зачастую меняется в зависимости от внешних факторов. Классический пример таких факторов — сезонность:

Доставка еды или такси работают интенсивнее в плохую погоду;
Dating-приложения активнее используются в пятницу и субботу;
Цветочный e-commerce разрывается в праздники.

Соответственно, имеет смысл сравнивать выборки как минимум из одного сезонного диапазона. Также стоит использовать те диапазоны, где представлена ваша основная аудитория.

Всегда учитывайте внешние факторы вашего продукта. Например, не стоит останавливать эксперимент в середине недели, помня о том, что результаты теста могут измениться с учётом выходных.

После разбивки пользователей на несколько групп недостаточно лишь посчитать метрики (например, конверсию или средний доход) и выбрать вариант с наибольшим значением. В этом случае мы не учитываем случайность наших данных. С большей долей вероятности значения метрик после эксперимента изменятся, поэтому нам нужно заранее учесть этот факт, чтобы правильно принять решение на основании полученных данных с нашего А/B-теста.

Принимать решение о победителе в эксперименте, основываясь на статистических методах, которые позволяют учесть фактор случайности.

Даже если вы учли календарный фактор, за время тестирования может не накопиться достаточное число пользователей для обнаружения статистически значимого эффекта от продуктового изменения. Количество пользователей, которое необходимо для корректности выводов, зависит от статистического теста, размера предполагаемого эффекта и статистических вероятностей ошибиться.

Заранее рассчитайте необходимое число пользователей, чтобы обнаружить минимальный предполагаемый эффект от изменений. Подробнее.

Методология классического A/B-теста устроена таким образом, что в зависимости от набора пользователей во время проведения эксперимента, статистически значимый эффект от изменения может то появляться, то исчезать. Когда мы останавливаем наш эксперимент сразу при достижении статистически значимого результата, мы совершаем ошибку подглядывания.

Можно провести аналогию с круговым шахматным турниром, где участвуют 50 человек и каждый должен сыграть с каждым. Если прервать соревнование через 5 туров и определить победителя — далеко не факт, что им окажется действительно самый сильный участник, поскольку ему на старте могли попасться соперники с низким рейтингом.

Оговаривайте время остановки теста заранее. Оно может зависеть от необходимого числа пользователей, рассчитанного по калькуляторам, и календарного фактора.

Например, вы проводите A/B-тест для мобильного экрана с кнопкой и используете два варианта, в которых оттенок кнопки незначительно отличается. В этом случае разница в поведении пользователей будет крайне мала, чтобы её отловить статистическими методами.

Тестируйте только те варианты, которые могут явно изменить поведение пользователей и повлиять на показатели. Разница между вариантами должна быть визуально заметна и очевидна.

Стратегия выбора варианта продукта с лучшей конверсией — не всегда оптимальный вариант с точки зрения максимизации прибыли. Зачастую гораздо выгоднее привлечь более платёжеспособных пользователей. Поэтому возникает необходимость запускать тесты не только на конверсию, но и на финансовые метрики. Однако, не стоит забывать, что методологически A/B-тесты на конверсию и финансовые метрики несколько отличаются друг от друга. Для выявления статистически значимого результата в каждом из тестов используются свои статистические критерии.

Помимо конверсии, запускайте также эксперименты и с оптимизацией на финансовые показатели

В классических A/B-тестах пользователи распределяются поровну в каждую группу. Если вы не технологический гигант с большим количеством данных, то каждый A/B-тест сопряжён с издержками тестирования. В течение всего эксперимента мы вынуждены показывать экономически невыгодные варианты продукта. Однако, существуют алгоритмы, которые позволяют изменять разделение трафика по вариантам на протяжении всего эксперимента. Среди них можно выделить алгоритм Томпсона — применение байесовской статистики в задаче многоруких бандитов. Такой алгоритм на каждом шаге в ходе эксперимента пересчитывает вероятности выигрыша для каждого варианта и отдаёт трафик туда, где вероятность победить на данном этапе максимальная.

По возможности использовать элементы байесовской статистики для определения победителя. Но не стоит забывать, что для каждого метода есть свои ограничения и слепое их применение может не привести к желаемым результатам.

На рынке есть много универсальных платформ и решений для A/B-тестирования в вебе и мобильных продуктах. Многие аналитические платформы начинают встраивать в свои решения модули для A/B-тестирования. Но они решают не все задачи, которые стоят перед разработчиками, продактами и маркетологами мобильных приложений.

Если вы хотите сфокусироваться на развитии своего продукта, сделать его прибыльным или увеличить уже существующие показатели — обратите внимание на сервис Proba. В его функционале:

Бесплатный тариф для лёгкого старта;
Классическое A/B-тестирование с оптимизацией на любые метрики с использованием стандартной методологии частотного подхода (трафик распределяется поровну в каждый вариант, выводы делаются на основании доверительных интервалов);
Ускоренный эксперимент с оптимизацией на конверсию с использованием байесовской статистики и многоруких бандитов (трафик распределяется пропорционально вероятностям превосходства одного варианта над другим на каждом шаге);
Ускоренный эксперимент с оптимизацией на финансовые показатели с использованием байесовской статистики (трафик распределяется поровну, лучший вариант выбирается на основании вероятности превосходства);

В сервисе есть возможность публикации результата в один клик, чтобы применять изменения в интерфейсе в пользу наиболее успешного варианта.

Используйте передовые инструменты для тестирования. С помощью них можно не только проводить простые тесты с «ручным» разделением трафика, но и ускорять эксперименты за счёт автоматических алгоритмов. А результат можно оптимизировать на ваши финансовые показатели.

Мы перечислили основные ошибки в A/B-тестировании из нашей практики. Делитесь в комментариях своими кейсами и ошибками — разберём их вместе.

10 ошибок в A/B-тестировании мобильных приложений

1. Сегментация пользователей

Что делать?

2. Бездумный запуск тестов без детализации решаемой проблемы/гипотезы

Что делать?

3. Игнорирование внешних факторов

Что делать?

4. Пренебрежение статистикой

Что делать?

5. Тестирование гипотез на малом трафике

Что делать?

6. Преждевременное прерывание теста

Что делать?

7. Несущественная разница в тестируемых вариантах

Что делать?

8. Использование конверсии в качестве единственной метрики эксперимента

Что делать?

9. Использование только классических экспериментов

Что делать?

10. Несоответствие инструментария для тестирования целевым требованиям

Что делать?