A/B тестирование для продуктового маркетолога

Pic source: <a href="https://fatcatapps.com/" rel="nofollow noreferrer noopener" target="_blank">https://fatcatapps.com/</a>

Продуктовому маркетологу необходимо понимать базовые значения a/b тестирования, чтобы как минимум корректно сформулировать задачу для аналитика и продукт-менеджера. Он также должен понимать как сформирована выборка: какое количество пользователей и почему включено в каждую из групп, насколько можно доверять результатам и что значит итоговая трактовка результата.

В этой статье я попытаюсь объяснить и рассказать про базовые значения a/b тестирования и приведу шаблон подготовки к нему.

A/b тест относят к UX исследованиям — исследование опыта использования пользователей. Другое название: сплит-тестирование.

В основе a/b тестирования всегда лежит идея роста определённой метрики. Другая важная задача a/b тестирования — экономия ресурсов и денег — прежде чем начинать долгую и дорогостоящую разработку, можно протестировать прототип.

A/b тестирование обычно проводится, когда уже есть достаточное количество пользователей и данных о них.

При A/B тестировании можно проверить:

Внесение изменения в функционал продукта.
Добавление нового функционала в продукт.
Изменение креативной или контентной концепции продукта/рекламных носителей.

1. Оптимизация ресурсов: прежде, чем начинать долгую и дорогую разработку нового функционала продукта/фичи/креативной концепции, можно протестировать прототип, лишь одну идею изменения или концепции прежде, чем инвестировать в нее.

2. Улучшение метрик текущего продукта/фичи/креативной концепции. Например, вы решили, что если перенесете кнопку с правой части сайта в центр, то у вас повысится конверсия, либо, если вы перекрасите баннер в желтый, то на него больше будут кликать.

3. Не ухудшение метрик. Важная задача a/b теста доказать, что при внесении изменений в текущий продукт/функционал/креатив и т. д. не ухудшатся метрики. Например, если вы решили сделать масштабный редизайн сайта, а пользователи привыкли к старому.

1. Определите бизнес-задачу, которую вы хотите решить. Например, вам необходимо увеличить онлайн-продажи, либо количество подписчиков, LTV и т. п.

2. Посчитайте экономику проекта — определите ROI, при каком уровне увеличения конверсии и планируемых затрат проект выйдет на необходимую рентабельность от реализации данной гипотезы.

3. Разработайте гипотезу, которая будет решать бизнес-задачу и выйдет на нужный уровень ROI. Пример: если поднять форму «Связаться с нами» снизу лендинга вверх, то увеличим конверсию в n-раз.

4. Определите ключевую метрику тестирования. Каждая гипотеза должна иметь за собой конкретные метрики. Определите, насколько вырастит ключевая метрика и в какой период. Именно эту метрику вы будете отслеживать при тестировании.

Необходимо понимать, что бизнес-задача и ключевая метрика — это разные вещи. Например, вы тестируете тему письма и основная метрика, которую вы будете отслеживать — это открываемость писем, т. е. OR. При этом содержание данного письма призывает пользователей продлить подписку на ваш сервис. В данном случае:Бизнес-задача – увеличение количества подписок. Гипотеза – увеличение открываемости писем (OR) будет больше, соответственно и количество продлений подписок должно увеличиться.

Удобный шаблон по разделению метрик:

Success — это метрики, которые будем мерить и обозначим их метриками успеха.

Guardrail — это метрики, которые не должны ухудшиться при тестировании гипотезы.

Informative — это метрики, которые также потенциально могут расти в ходе эксперимента и представляют интерес, но не являются основными для принятия решения в пользу тестовой гипотезы.

5. Определите дизайн исследования: какая аудитория участвует в тесте: старые или новые пользователи, активные или нет. Определите характеристику сегмента по соцдему, по поведению, типам платформ, географии и т. д.

Теперь давайте разберёмся в важных базовых статистических понятиях и терминах a/b тестирования. Если в команде есть аналитик, то практически тестирование организует он по поставленной вами задаче, также как и его проведение и трактовку. Однако! Я призываю всех продуктовых маркетологов научиться пользоваться калькулятором по определению необходимой выборки и времени проведения исследования, а также понять связь между ресурсо-затратностью тестовой гипотезы и уровнем статистической значимости и мощности. Все это критично на этапе формирования бизнес-задачи и расчета KPI и ROI.

6. Определите минимальный размер выборки и длительность исследования. Удобный ресурс: калькулятор abtasty. com. По ссылке есть также калькулятор расчета метрики Minimum Detectable Effect (MDE) — минимальный обнаруживаемый эффект и калькулятор определение длительности проведения эксперимента.

A/B тестирование для продуктового маркетолога

Минимальный обнаруживаемый эффект (MDE) — это значение, которое оценивает наименьшее изменение ключевой метрики, которое можно обнаружить при текущих данных.

Для его расчета необходимо знать:

1. Текущий трафик.

2. Текущий показатель конверсии (CR) .

MDE — по сути, это ваше предположение, на какой минимальный процент вырастет конверсия, если вы реализуете в жизнь тестовую гипотезу, но, если бы вы знали это, вам не надо было бы проводить a/b тест, верно? Так для чего же нужен MDE? Это инструмент, который помогает спрогнозировать количество выборки и сколько времени понадобится на эксперимент, т. е. определить ресурсы для a/b теста.

На практике MDE указывает, что чем меньше прогнозируемое значение увеличения конверсии, тем больше нужна выборка. Чем больше прогнозируемое значение увеличения конверсии, тем меньше нужна выборка.

Чтобы увидеть изменения на незначительный процент, вам понадобится гораздо больше людей, которые примут участие в тесте. Понятно, что если вы прогнозируете увеличение конверсии в два, в три или больше раз, то понадобится меньше людей.

Все это речь про издержки. Одна из основных задач a/b тестирования — сэкономить вам деньги. Предположим, текущая конверсия — 5%, вы посчитали экономику проекта и обнаружили, что на положительный ROI тестируемого изменения мы выйдем при конверсии 7%. Считаем MDE 7%-5% = 2%, 2% от 5% составляет — 40%. Необходимый MDE = 40%.

Заполняем основную форму, которая покажет нам, какое приблизительно количество людей в каждой из тестовых групп понадобится:

В поле Conversion Rate — указываем текущую конверсию.

В поле Minimum detectable effect — указываем целевое увеличение показателя конверсии, напомню, что в данном калькуляторе указывается относительное значение CR и ограничено до 49%.

Statistical Significance — статистическая значимость, обозначается буквой α — ограничивает вероятность, что мы выберем тестовый вариант, хотя он на самом деле хуже текущего варианта (контроля) . Статистическая значимость предостерегает нас от впустую потраченных ресурсов на тестовый вариант, который на самом деле хуже или такой же как текущий вариант. Такое поведение называется ошибкой I типа. Обычно, уровень статистической значимости колеблется от 1 до 10%, на практике ставится — 5%.

Statistical power — уровень статистической мощности, определенный как 1-β, где β - вероятность ошибки II типа. Величина β определяет вероятность решения в пользу текущего варианта — контроля, хотя тестовый вариант на самом деле лучше. Таким образом, уровень статистической мощности интерпретируется как вероятность не совершить оишбку второго рода. Выбранный процент мощности определяет уровень доверия к результатам, которые показывает текущий вариант решения (контроль) . Обычно по умолчанию ставится — 80%.

Увеличение одного значения приведет к уменьшению значения другого. Если мы будем увеличивать мощность — будет понижаться статистическая значимость и наоборот. При этом увеличение обоих показателей приведет к увеличению выборки для теста, увеличение выборки приведет к большему сроку проведении теста, больший срок — к очевидным потерям от того, что мы дольше и большему количеству людей показываем проигрышный вариант.

Все опять же упирается в бизнес-задачу и экономику проекта. Если тестируется несложное, дешевое в своей реализации, легко отменяемое изменение в интерфейсе, например, добавление дополнительной кнопки, то решающую роль будет играть статистическая мощность. Если нововведение действительно окажет влияние на конверсию, нам важно ее внедрить. Если же задача сложнее, например, внедрение меню с новой системой категорий товаров — такое изменение дорогое, долгое и может значительно повлиять на поведение пользователей — для тестирования данной гипотезы необходимо повысить статистическую значимость.

Онлайн калькулятор evanmiller. org с возможностью вводить разные значения значимости и мощности.

В данном калькуляторе статистическая значимость определена шкалой от 1–10%. При этом 1% значит, что лишь в 1% случаев мы выберем тестовый вариант, хотя он хуже контроля, дефолтом ставится 5%, что соответствует 95% в калькуляторе выше.

Выводы: основная задача продуктового маркетолога корректно подготовить задачу a/b тестирования. Хорошо понимать, что и зачем тестируется, какую бизнес-задачу решаем и какие метрики будем мерить, а также корректно просчитать экономику проекта — ресурсозатраты, ROI, время выхода на необходимые показатели при внедрении гипотезы.

Полезные ресурсы для a/b тестирования:

Калькулятор с расчетом MDE: https://www. abtasty. com/sample-size-calculator/

Калькулятор Эвана Миллиера: https://www. evanmiller. org/ab-testing/sample-size. html

Неплохой разбор: https://splitmetrics. com/resources/what-is-ab-testing-and-why-it-matters-for-mobile-developers/

2 комментария

Юлия Шилова

06.11.2022

Я думала по обычным процессам в компании это считают аналитики, а маркетологи только по результатам смотрят и дальше направление задают. Спасибо за статью, очень полезно.

Ответить

Амалия Огрмрцян

Автор

На практике так и есть. Продуктовый маркетолог либо продукт-менеджер обычно являются заказчиками таких исследований, поэтому необходимо разобратья в вопросе, чтобы и задачу ставить грамотно и дальше работать с результатами исследования.

A/B тестирование для продуктового маркетолога

Когда нужен A/B тест

С чего начать?

Как все же определить уровень значимости и мощность?