A/B тестирование для продуктового маркетолога

Pic source: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ffatcatapps.com%2F&postId=533295" rel="nofollow noreferrer noopener" target="_blank">https://fatcatapps.com/</a>

Продуктовому маркетологу необходимо понимать базовые значения a/b тестирования, чтобы как минимум корректно сформулировать задачу для аналитика и продукт-менеджера. Он также должен понимать как сформирована выборка: какое количество пользователей и почему включено в каждую из групп, насколько можно доверять результатам и что значит итоговая трактовка результата.

В этой статье я попытаюсь объяснить и рассказать про базовые значения a/b тестирования и приведу шаблон подготовки к нему.

A/b тест относят к UX исследованиям — исследование опыта использования пользователей. Другое название: сплит-тестирование.

В основе a/b тестирования всегда лежит идея роста определённой метрики. Другая важная задача a/b тестирования — экономия ресурсов и денег — прежде чем начинать долгую и дорогостоящую разработку, можно протестировать прототип.

A/b тестирование обычно проводится, когда уже есть достаточное количество пользователей и данных о них.

При A/B тестировании можно проверить:

Внесение изменения в функционал продукта.
Добавление нового функционала в продукт.
Изменение креативной или контентной концепции продукта/рекламных носителей.

1. Оптимизация ресурсов: прежде, чем начинать долгую и дорогую разработку нового функционала продукта/фичи/креативной концепции, можно протестировать прототип, лишь одну идею изменения или концепции прежде, чем инвестировать в нее.

2. Улучшение метрик текущего продукта/фичи/креативной концепции. Например, вы решили, что если перенесете кнопку с правой части сайта в центр, то у вас повысится конверсия, либо, если вы перекрасите баннер в желтый, то на него больше будут кликать.

3. Не ухудшение метрик. Важная задача a/b теста доказать, что при внесении изменений в текущий продукт/функционал/креатив и т. д. не ухудшатся метрики. Например, если вы решили сделать масштабный редизайн сайта, а пользователи привыкли к старому.

1. Определите бизнес-задачу, которую вы хотите решить. Например, вам необходимо увеличить онлайн-продажи, либо количество подписчиков, LTV и т. п.

2. Посчитайте экономику проекта — определите ROI, при каком уровне увеличения конверсии и планируемых затрат проект выйдет на необходимую рентабельность от реализации данной гипотезы.

3. Разработайте гипотезу, которая будет решать бизнес-задачу и выйдет на нужный уровень ROI. Пример: если поднять форму «Связаться с нами» снизу лендинга вверх, то увеличим конверсию в n-раз.

4. Определите ключевую метрику тестирования. Каждая гипотеза должна иметь за собой конкретные метрики. Определите, насколько вырастит ключевая метрика и в какой период. Именно эту метрику вы будете отслеживать при тестировании.

Необходимо понимать, что бизнес-задача и ключевая метрика — это разные вещи. Например, вы тестируете тему письма и основная метрика, которую вы будете отслеживать — это открываемость писем, т. е. OR. При этом содержание данного письма призывает пользователей продлить подписку на ваш сервис. В данном случае:Бизнес-задача – увеличение количества подписок. Гипотеза – увеличение открываемости писем (OR) будет больше, соответственно и количество продлений подписок должно увеличиться.

Удобный шаблон по разделению метрик:

Success — это метрики, которые будем мерить и обозначим их метриками успеха.

Guardrail — это метрики, которые не должны ухудшиться при тестировании гипотезы.

Informative — это метрики, которые также потенциально могут расти в ходе эксперимента и представляют интерес, но не являются основными для принятия решения в пользу тестовой гипотезы.

5. Определите сегмент пользователей: какая аудитория участвует в тесте: старые или новые пользователи, активные или нет. Определите характеристику сегмента по соцдему, по поведению, типам платформ, географии и т. д.

Теперь давайте разберёмся в важных базовых статистических понятиях и терминах a/b тестирования. Если в команде есть аналитик, то практически тестирование организует он по поставленной вами задаче, также как и его проведение и трактовку. Однако! Я призываю всех продуктовых маркетологов научиться пользоваться калькулятором по определению необходимой выборки и времени проведения исследования, а также понять связь между ресурсо-затратностью тестовой гипотезы и уровнем статистической значимости и мощности. Все это критично на этапе формирования бизнес-задачи и расчета KPI и ROI.

6. Определите минимальный размер выборки и длительность исследования. Удобный ресурс: калькулятор abtasty. com. По ссылке есть также калькулятор расчета метрики Minimum Detectable Effect (MDE) — минимальный обнаруживаемый эффект и калькулятор определение длительности проведения эксперимента.

A/B тестирование для продуктового маркетолога

Минимальный обнаруживаемый эффект (MDE) — это значение, которое оценивает наименьшее изменение ключевой метрики, которое можно обнаружить при текущих данных.

Для его расчета необходимо знать:

1. Текущий трафик.

2. Текущий показатель конверсии (CR) .

На практике MDE указывает, что чем меньше прогнозируемое значение увеличения конверсии, тем больше нужна выборка. Чем больше прогнозируемое значение увеличения конверсии, тем меньше нужна выборка.

Чтобы увидеть изменения на незначительный процент, вам понадобится гораздо больше людей, которые примут участие в тесте. Понятно, что если вы прогнозируете увеличение конверсии в два, в три или больше раз, то понадобится меньше людей.

Предположим, текущая конверсия на контрольной странице — 10%, трафик - 100 000 пользователей, MDE в таком случае будет 4,87% - это значит, что ваш тест обнаружит только изменения, которые приведут конверсию:

либо выше 10% на 4.87%, то есть до 10.487% и выше,
либо ниже 10% на 4.87%, то есть до 9.513% и ниже.

В реальности размер выборки и MDE соответственно можно определить 2-мя способами:

1. С помощью калькулятора, например этого на вкладке Pre-test Analysis и она разложит вам MDE понедельно до 6 недель.

2. Указать целевой MDE или тот % изменения конверсии, который вы прикинули в своей бизнес-модели.

Совет здесь один, если у вас раскрученный сервис с большой аудиторией - можно уменьшать значение MDE - большой поток аудиории позволит выявить небольшие изменения, которые в масштабе принесут большие результаты. Для старт-апов и сервисов с небольшим трафиком - стоит закладывать целевой MDE c достаточным ростом, чтобы длительность теста не заняла месяцы.

Заполняем калькулятор дальше, чтобы понять минимальный размер выборки для теста.

В поле Conversion Rate — указываем текущую конверсию.

У нас большая аудитория, мы можем позволить себе указать MDE = 10%, т.е. наш целевой MDE =. 11% (текущий CR=10% + 10%)

Statistical Significance — статистическая значимость, обозначается буквой α — ограничивает вероятность, что мы выберем тестовый вариант, хотя он на самом деле хуже текущего варианта (контроля) . Статистическая значимость предостерегает нас от впустую потраченных ресурсов на тестовый вариант, который на самом деле хуже или такой же как текущий вариант. Такое поведение называется ошибкой I типа. Обычно, уровень статистической значимости колеблется от 1 до 10%, на практике ставится — 5% (100-95 = 5%).

Statistical power — уровень статистической мощности, определенный как 1-β, где β - вероятность ошибки II типа. Величина β определяет вероятность решения в пользу текущего варианта — контроля, хотя тестовый вариант на самом деле лучше. Таким образом, уровень статистической мощности интерпретируется как вероятность не совершить оишбку второго рода. Выбранный процент мощности определяет уровень доверия к результатам, которые показывает текущий вариант решения (контроль) . Обычно по умолчанию ставится — 80%.

Мы получаем размер выборки для каждого из вариантов - 14 312 уникальных посетителей - вполне реально при 100 тысячной аудитории.

Далее вводим ежедневную аудиторию - допусим, 5 тысяч посетителей и количество вариантов тестирования - в нашем примере их 2, получаем 5 дней длительности теста.

Все опять же упирается в бизнес-задачу и экономику проекта. Если тестируется несложное, дешевое в своей реализации, легко отменяемое изменение в интерфейсе, например, добавление дополнительной кнопки, то решающую роль будет играть статистическая мощность. Если нововведение действительно окажет влияние на конверсию, нам важно ее внедрить. Если же задача сложнее, например, внедрение меню с новой системой категорий товаров — такое изменение дорогое, долгое и может значительно повлиять на поведение пользователей — для тестирования данной гипотезы необходимо повысить статистическую значимость.

Выводы: основная задача продуктового маркетолога корректно подготовить задачу a/b тестирования. Хорошо понимать, что и зачем тестируется, какую бизнес-задачу решаем и какие метрики будем мерить, а также корректно просчитать экономику проекта — ресурсозатраты, ROI, время выхода на необходимые показатели при внедрении гипотезы.

Полезные ресурсы для a/b тестирования:

Калькулятор с расчетом MDE: https://www. abtasty. com/sample-size-calculator/

Еще один калькулятор:

speero.com

AB Test Calculator

Неплохой разбор: https://splitmetrics. com/resources/what-is-ab-testing-and-why-it-matters-for-mobile-developers/

2 комментария

Юлия Шилова

06.11.2022

Я думала по обычным процессам в компании это считают аналитики, а маркетологи только по результатам смотрят и дальше направление задают. Спасибо за статью, очень полезно.

Ответить

Амалия Огрмрцян

Автор

На практике так и есть. Продуктовый маркетолог либо продукт-менеджер обычно являются заказчиками таких исследований, поэтому необходимо разобратья в вопросе, чтобы и задачу ставить грамотно и дальше работать с результатами исследования.

A/B тестирование для продуктового маркетолога

Когда нужен A/B тест

С чего начать?

Как все же определить уровень значимости и мощность?