A/Б тесты — что это такое и как проводить?

Расспросили CEO & Founder ProductStar Михаила Карпова о том, как проводить А/Б-тесты без ошибок

А/Б тест — эксперимент, который проводят продакты (и не только) для проверки гипотез. Чтобы понять, принесет ли пользу конкретное изменение, нужно на практике сравнить первоначальный вариант с модифицированным и проанализировать результаты.

Представим, что вы продакт компании, которая занимается разработкой приложения сервиса стриминга музыки. У вас большая команда и вы каждый день ищите пути улучшения вашего сервиса. Улучшать что-то без достаточных оснований — глупо, мы же помним, что продукт должен решать определенную проблему .

Любые изменения вносятся в продукт с конкретной целью, она либо помогает пользователю, либо решает бизнес задачи (супер, если все сразу). В нашем случае поступает задача от старшего продакта — увеличить число активных пользователей. Команда начинает генерировать гипотезы, как нам добиться желаемой цели. Здесь и нужны А/Б тесты.

Продакты не любят неопределенность

Во время генерации гипотез мы делаем предположения, которые требуют доказательств. Гипотезы могут основываться на нашем личном опыте, статистических данных или исследовании наших пользователей. Иногда кажется, что из 10 гипотез к успеху могут привести все. Что делать? Скрестить пальцы и запустить А/Б тест!

Решения из воздуха

Соблазн сразу выдать готовое решение всегда мешает продакту. Представим, что в нашем кейсе мы предположили, что поиск по текстам песен с большой вероятностью повысит количество пользователей. Реализовать такую фичу — трудоемкая работа целой команды, но что, если мы ошиблись? Новых пользователей не привлекли, а драгоценное время потрачено. Чтобы такого не случалось, сперва MVP новой фичи следует прогнать через А/Б тест, на основе которого можно будет принимать решение: делать ли фичу и насколько много ресурсов команды на такую задачку выделять.

A/Б тесты — что это такое и как проводить?

1. Сначала прицеливаемся

Прежде чем проводит А/Б тест, задайте себе простой вопрос: “Зачем?” Физики ставят эксперименты, чтобы больше узнать о явлениях природы, а продакты — чтобы решить задачу или достичь определенной цели, например, обеспечить компании высокие темпы роста.

Например, в Видеосервисе ВК одна из ключевых метрик — "число просмотров". Чтобы её увеличить предлагается ряд гипотез, одной из которых будет "добавить опцию автоматического переключения на следующее видео". Это большое изменение и его стоит проверить в A/B-тесте (чтобы точно понимать что мы улучшим, а не ухудшим нашу метрику).

2. Метрики всему голова

А/Б тесты — количественное исследование, оно отражает изменение того, что можно измерить. Поэтому нужно понять, какие показатели будем считать или, говоря языком продактов, — определить метрики. Лучше всего выбрать 1-3 метрики, изменения которых будем отслеживать. Если метрик будет много, то точно определить эффект теста будет проблематично.

Допустим, для нашего примера с Видеосервисом можно выделить следующие метрики: число просмотров, средняя длительность просмотра, количество лайков на видеозаписях. Важно следить за всеми ключевыми метриками сервиса, так как в результате внедрения изменений бывает, что одна метрика вырастет, а несколько других наоборот снизятся. И тут уже продакту необходимо принимать бизнес решение: оставлять внедрение или откатывать к первоначальному варианту.

3. Мыслим гипотетически

Нашли цель, двигаемся к гипотезе, именно ее мы будем проверять. Лучше всего представить ее по формуле: “если произойдет событие А, то с метрикой произойдет событие Б”.

Для нашего примера это выглядит следующий образом: "если человек досмотрит видео до конца и мы покажем 10-секундный таймер обратного отчёта, а после него включим следующее видео, то на 10% увеличится общее число просмотров видео"

Мы имеем здесь два возможных развития событий:

— Нулевая гипотеза: изменения нет, событие А происходит, а метрика не изменяется

— Альтернативная гипотеза: подтверждение нашей гипотезы, метрика меняется, когда происходит событие А.

4. Находим испытуемых

У эксперимента всегда есть пользователи, на которых он проводится. Наша задача — определить, кто нам подходит: из какой страны, все пользователи или только новые, иными словами — выделить группу испытуемых. Затем нам стоит понять, сколько пользователей мы должны протестировать.

А/Б тесты тесно связаны со статистикой, и часто случается, что малое количество пользователей не даст вам определить, есть ли зависимость изменения метрики от ваших нововведений. Проще всего это сделать с помощью специальных сервисов-калькуляторов, например Driveback или Optimizely.

Когда мы проводим эксперимент, мы также должны не попасть в ловушку статистики и предусмотреть все случайные совпадения. Когда мы тестируем большое количество пользователей, простые совпадения не редкость, по-умному это называется “определение уровня статистической значимости”. Обычно берется значение в 5%.

Последнее – устанавливаем дедлайн. Мы же не можем проводить эксперимент бесконечно, чаще всего для проверки гипотезы достаточно одной или двух недель.

Например, сейчас конверсия в оплату 10%, мы вносим изменение и хотим чтобы конверсия увеличилась на 2%, для этого нам нужно чтобы через эксперимент прошло 3500 пользователей, на нашем трафике это займёт 10 дней.

5. Проводим А/А тест

Прежде чем проводить А/Б тест, необходимо проверить сами группы испытуемых на идентичность. Эти группы должны показать одинаковый результат на А/А тесте (т.е. обеим группам показываем версию продукта без изменений). Если этого не сделать, изменения на А/Б тесте можно списать на то, что пользователи у нас изначально отличались. А/А тест ликвидирует такую вероятность.

6. Запускаем и не торопимся

Настал самый сложный для продакта этап – не торопиться. После запуска эксперимента важно проверить, все ли работает (особенно если изменения метрик уж слишком неожиданные). Еще раз проверить корректность настроек, после чего следует дать тесту “доработать”.

Частая ошибка — сделать вывод раньше времени, когда видна победа альтернативной гипотезы (т.е. положительное изменение метрики на варианте Б). К концу эксперимента результаты могут изменится на противоположные, поэтому всегда доводите эксперимент до конца.

7. Анализируем результаты

Когда эксперимент закончен, нужно обработать полученные данные. Возможно два исхода:

Победила нулевая гипотеза, т.е.изменений нет. В этом случае полезно будет понять, почему гипотеза не сработала.

Например, мы добавили автовключение видео, но метрика изменилась только на 0,02%, что по информации от команды аналитиков является статистически незначимым в нашем случае. Значит, наше изменение нам не помогло и важно изучить из-за чего такое произошло. Это может быть ошибка в дизайне, может мы что-то не поняли в поведении пользователей и стоит провести качественное исследование и пообщаться с ними вживую.

Победила альтернативная гипотеза. Тест подтвердил наше предположение, событие А привело к изменению метрики Б.

Например, мы добавили автовключение видео и метрика "число просмотров" изменилась на 2%, что по информации от команды аналитиков является статистически значимым в нашем случае.

Для проверки результатов важно запустить повторное тестирование, либо распространяют тест на всех пользователей, после чего уже делать решение о внедрении полноценной версии фичи.

Неоднородная аудитория. Если мы тестируем гипотезу на разных пользователях, то делать выводы о ее работе не можем. Чтобы не экспериментировать впустую, всегда проверяйте пользователей на А/А тестах.

Игнорирование незначительных результатов. Во время А/Б теста обнаруживается рост отслеживаемой метрики, но ниже ожидаемого. К примеру мы ожидали роста в 7-10%, а метрика выросла на 2-3%. Мы получили ценную информацию, которая может вывести нас на новую гипотезу или проблему, игнорировать ее – значит упустить возможность.

Игнорирование других показателей. Вполне может быть, что эксперимент действительно показывает рост нужной нам метрики, но другие показатели снижаются. Нужно проводить дополнительные исследования и строить гипотезы для решения проблемы, но ни в коем случае не опускать руки.

Ошибка I рода. Так в статистике называется ситуация, когда складывается иллюзия результата. К примеру, наша гипотеза работает, хотя на самом деле эффекта нет.

Ошибка II рода. Обратная ситуация, когда мы не видим реальных изменений. Часто бывает, что метрика просто реагирует на изменения недостатка данных (т.е. мало пользователей для анализа).

Как избежать этих ошибок?

Для этого и проводятся повторные тестирования, тестирования на всех пользователях, качественные исследования. Как врач никогда не спешит ставить поспешный диагноз, так и вы не должны делать поспешных выводов. Сомнения - ключ к поиску работающих гипотез.

А/Б тесты — незаменимый инструмент в арсенале продакта, он помогает быстро проверять верность наших идей

Продакт не выживет без А/Б тестирования. Скорость релизов все растет, конкуренция повышается, а ресурсы команды не безграничны. Время, когда продукт делали “просто так” давно ушло, сейчас индустрия работает на экспериментах и быстрой проверке гипотез.

А/Б тест подойдет не только продактам, но и маркетологам, дизайнерам, таргетологам, всем, кто хочет генерировать идеи и проверять их эффективность.

Не бывает плохих А/Б тестов. Если вы на всю жизнь запомните из этой статьи одну мысль, то пусть это будет она: любой эксперимент дает нам ценные знания, которые мы можем использовать в улучшении продукта. Даже если тест провалился, не печальтесь! Вы получили много инсайтов для размышления, а если и они не помогли, то помните, что вы избежали лишних затрат на разработку бесполезной фичи.

В общем, A/Б-тесты — инструмент необходимый, почти в каждом описании вакансии продакта будут требовать уметь его применять.

Этому и многим другим важным продуктовым скиллам можно обучиться на нашем курсе "Профессия: продакт-менеджер". Занятия записаны заранее, а значит курс вполне реально пройти за несколько месяцев, не дожидаясь остальной группы. Из уникальных фич курса — индивидуальное менторство, гарантии трудоустройства (средний срок поиска работы карьерным центром — 2,5 месяца с момента старта учебы), поддержка до 6 месяцев на испытательном сроке, собственная образовательная платформа, доступ к огромному коммьюнити топовых специалистов, курс по маркетингу в подарок.

Ну а если вы хотите изучить какие-то конкретные темы, например, углубиться в hard скиллы продакта, Unit-экономику, менеджмент мобильных приложений, инструменты CJM, то оставляйте заявку нашим менеджерам по любой из ссылок, они подробно расскажут о всех мини-курсах и профессиях!

Успехов :)

4 комментария

Аккаунт удален

20.05.2022

Комментарий недоступен

Ответить

ProductStar

Автор

С нашей стороны был совершен промах!
Спасибо за внимательность, поправили.

under construction

21.05.2022

" незаменимый инструмент в арсенале продакта, он помогает быстро проверять верность наших идей"

Фишка и минус НАСТОЯЩЕГО А/Б теста в том, что он быстро не работает.
Конечно если у вас трафик не больше, чем 100к + в сутки

Артём А.

Там много факторов, из за чего АБ тест может быть быстрым или медленным. И не всегда трафик самый важный.
В любом случае при правильном подходе это самый быстрый и безболезненный из достоверных способов проверить продуктовую гипотезу

A/Б тесты — что это такое и как проводить?

Почему все любят А/Б тесты?

Как самому провести первый А/Б тест?

Какие ошибки чаще всего проводятся при проведении А/Б-тестов?

Вместо заключения