A/B тесты — что это такое и как использовать?

Генерирование новых идей — неотъемлемая часть развития любого продукта. Разумеется, не каждая идея повысит конверсию, увеличит аудиторию или положительно повлияет на другую метрику. Как тогда быстро проверять идеи и гипотезы? Существует множество инструментов, но один из самых популярных — A/B тесты, о которых пойдет речь в этой статье.

Недавно вместе с Валерием Белокуровым, Product Analyst в Яндексе, мы проводили вебинар «Разбираемся с нуля в А/Б-тестах». Смотрите запись этого онлайн-интенсива 😉

Рассматривать понятие АБ-теста начнем с простой схемы. Она состоит из трех элементов:

аудитория;
исходная и экспериментальная страницы;
магия.

Например, есть лендинг по производству и продаже пластиковых окон, на который идет трафик с контекстной рекламы (аудитория). Владелец посмотрел вебинар и узнал, что сейчас в тренде не прямоугольные кнопки, которые установлены на сайте, а круглые. Последние увеличивают конверсию, то есть дают больше заказов.

Но это лишь субъективное представление, задача — проверить в действительности, поможет ли замена прямоугольных кнопок на круглые повысить конверсию. То есть необходимо внести правки, дать потенциальным клиентам «попробовать» измененный лендинг. Тогда удастся получить объективные данные об изменении конверсии (исходная и экспериментальная страницы).

Оценивать можно как на всей аудитории, так и на ее части. Второй вариант более предпочтительный, ведь тогда негативный результат минимально скажется на объеме заказов. Поэтому опытные аналитики проводят тестирование на 5-10% аудитории.

Создается вторая версия лендинга с круглыми кнопками и на нее направляется 5-10% трафика с контекстной рекламы, потенциальные клиенты получают возможность посмотреть и поработать с обновленной версией.

Следующий блок — магия. На этом этапе анализируют поведение пользователей и на основе полученных данных принимают решение. Например, раньше конверсия была 3-5%, а после замены кнопок увеличилась до 8-10%. Тогда весь трафик с контекстной рекламы переводят на новую версию и радуются увеличению прибыли.

Выбор системы аналитики зависит от ключевой метрики. В случае с лендингом по пластиковым окнам допускается применение Яндекс.Метрики (вообще, это популярный инструмент и его используют во многих тестах).

Таким образом, A/B тесты — сравнение исходной версии (сайта, приложения и т.п.) с новой на группе пользователей, оценка изменения ключевых метрик и принятие конечного решения о внесении правок.

A/B тесты нужны всем — продакт-менеджерам, маркетологам, продуктовым дизайнерам, вебмастерам и т.п. Если говорить проще, то в этом инструменте нуждаются все, кто хочет улучшать свой продукт, делать его удобнее и приятнее для целевой аудитории.

АБ-тестирование необходимо для получения объективной информации о всевозможных способах улучшения текущей версии продукта. Но это не всегда история про успешные тестирования и постоянный рост. В первую очередь надо думать, как не сделать проект хуже. И в этом A/B тесты помогают как нельзя лучше.

Объективные данные позволяют быстрее продвигаться на рынке. Ведь кто, как не пользователи, лучше знают, что им нужно здесь и сейчас. В развитии продукта опираться лишь на субъективное мнение и собственные взгляды нельзя. Это сильно затормозит развитие продукта.

Тогда придут конкуренты, которые охотно используют этот аналитический инструмент, и их темпы развития будут в разы больше, что позволит забрать значительную часть вашей аудитории или вовсе вытеснить с рынка. Поэтому использование АБ-тестирования в нынешних реалиях необходимо проектам (сайтам, приложениям и т.п.) как воздух.

A/B-тестирование проводят, когда:

необходимо получить объективное мнение о качестве изменений;
достаточно пользователей и данных;
достаточно времени и ресурсов для дизайна и проведения теста;
АБ-тест — действительно оптимальный вариант получения нужных сведений для принятия какого-либо решения.

Почему не стоит проводить тестирование, когда мало пользователей и данных? Например, мы только создали лендинг по продаже пластиковых окон и «крутим» контекстную рекламу на минимальном бюджете, поэтому количество посетителей маленькое.

Проводить тесты в данной ситуации не совсем правильно, потому что будет легко упустить какие-то важные изменения из-за низкой чувствительности метрик или отсутствия необходимого количества данных. В таком случае придется «держать» тестирование несколько месяцев, но тогда сама суть применения инструмента теряет смысл: его основная задача — быстро предоставить объективные данные, на основе которых будет принято решение в кратчайшие сроки.

A/B-тестирование существует уже много лет. Инструмент еще в начале 20 века применял математик Вильям Госсет на производстве пива Guinness. Он использовал в производстве продукции разные виды ячменя, чтобы определить наиболее лучшее сочетание, которое понравится потребителю больше всего.

Еще один пример — тестирование 41 оттенка синего в поисковой выдачи Google в начале 2000-х годов. Специалисты компании вывели гипотезу: существует оттенок синего, который воспринимается человеческим глазом лучше остальных и это может повысить кликабельность.

Проведение тестирования можно разделить на несколько шагов:

Постановка цели.
Выбор метрики.
Определение гипотез.
Определение дизайна.
Проведение тестирования.
Анализ результатов.

Рассмотрим каждый шаг подробнее.

Цель тестирования должна совпадать с глобальной целью компании. Продолжим рассматривать пример из начала статьи про компанию, занимающуюся производством и продажей пластиковых окон. Основная цель — увеличение объема продаж с лендинга, на который «льется» трафик с контекстной рекламы.

Следовательно, рассматривайте тестирования, которые гипотетически повлияют на увеличение заказов с лендинга. В нашем случае — замена прямоугольных кнопок на круглые.

Не занимайтесь проверкой гипотез, которые изначально не согласуются с глобальной целью компании. АБ тест — работа команды, она занимает время и ресурсы. И если неправильно установить ориентир, потратите средства впустую.

Выбор метрики очень важен для успешного проведения A/B теста. Под ней понимают ключевые показатели бизнеса: объем продаж, выручка, чистая прибыль, количество посетителей, конверсия, число отказов и т.п. Часто метрику сравнивают с термометром — она показывает, как хорошо нашим пользователям, как много мы зарабатываем и т.п.

Для нашего тестирования ключевая метрика — количество заказов с лендинга, то есть мы будем считать оплаченные заказы клиентов, пришедших с сайта.

Желательно выбирать одну метрику, но в некоторых случаях допускается рассматривать несколько показателей в качестве дополнительных. Главное — не переборщить!

Если отслеживать в рамках одного теста десяток метрик, его эффективность существенно снизится. В рамках примера с пластиковыми окнами в качестве дополнительных показателей допустимо отслеживать средний чек и чистую прибыль.

Выбираем гипотезу по схеме «если что-то, то что-то». Вторая часть должна совпадать с основной метрикой, выбранной в рамках тестирования. Например, «если заменить прямоугольные кнопки на круглые, то конверсия лендинга увеличится с 3-5% до 8-10%».

Для правильной оценки результатов выделяют два типа гипотез:

Нулевая. Изменения ни к чему не приведут, конверсия остается прежней (задача — опровергнуть гипотезу).
Альтернативная. Изменения приведут к повышению конверсии до 8-10%.

Соответственно, если изменений нет, значит, сработала нулевая гипотеза и внесение изменений не имеет смысла. Если конверсия повысилась, значит, сработала альтернативная гипотеза и следует масштабировать правки на всю аудиторию. И конечно, при негативном эффекте мы откатываем все изменения и думаем дальше, как повысить ключевую метрику.

Четвертый шаг — один из самых важных. Когда-то он больше технический, когда-то нет, все зависит от текущей команды и возможностей для проведения тестирования.

Например, в Яндексе работает автоматическая система, которая перед проведением А/Б-тестирования разбирает пользователей на группы и определяет объем выборки. Выборка — количество людей в каждой группе, необходимое для получение данных в нужном объеме для принятия объективного решения.

Перед проектированием дизайна теста ответьте на 4 вопроса:

какие пользователи участвуют — новые, старые, все, какой-то конкретный сегмент и т.п.;
как разбиваем на группы (например, по городам или районам);
объем выборки;
продолжительность тестирования;
допустимый уровень значимости (как правило, 90-95%).

Не все понимают, как определить объем выборки. В этом случае руководствуются собственным опытом: задают себе вопрос «мы хотим увидеть такое-то изменение такого-то размера» и на основе этого понимают минимально необходимую аудиторию для проверки гипотезы.

Вернемся к примеру лендинга по продаже пластиковых окон. Так как мы льем трафик с контекстной рекламы, будем рассматривать новых пользователей (10% от общего объема) и не станем разбивать их на группы. В среднем за сутки лендинг посещает 100 человек, проводить тестирование будем 1 месяц и тогда новую версию сайта посмотрят 300 потенциальных клиентов (10%). Такого объема выборки хватит для принятия объективного решения.

Запустите тестирование и… ждите! Расслабьтесь и наблюдайте за текущими результатами, особенно на начальном этапе. Проверяйте, чтобы ничего не сломалось и обе группы «чувствовали себя хорошо».

Иногда на начальных этапах можно увидеть подтверждение альтернативной гипотезы. И в этом случае новички допускают ошибку: прекращают тестирование раньше намеченного срока. Да, сначала изменения могут положительно повлиять на ключевую метрику, но уже в конце эксперимента может быть выявлено реальное отсутствие эффекта (если вообще не отрицательный результат). Поэтому ждите строго до конца запланированного периода.

Тестирование окончено, данные получены. Их анализируют для понимания, есть разница и не случайна ли она. На основе анализа принимается решение: зафиксировать внесенные правки на всю аудиторию или откатить все к первоначальной версии.

В нашем примере получили 27 заказов с лендинга с круглыми кнопками. То есть показатель конверсии достиг 9%.

Решение по результатам A/B-теста принимается на основе статистики. Поэтому без опытного аналитика здесь не обойтись. Его задача — собрать полученные данные и провести анализ.

В первую очередь, всегда помните про ошибки I и II рода:

ошибка I рода — видим эффект там, где его нет. Например, проводили А/А тест (две одинаковые версии продукта показывали двум группам пользователей) и обнаружили какие-то изменения, хотя на самом деле их нет.
ошибка II рода — не видим эффект там, где он есть. Например, проводили А/Б тест и из-за недостатка чувствительности метрики не обнаружили очевидные изменения.

Также в обязанности аналитика входит расчет статистической значимости. На 4 шаге, создавая дизайн тестирования, мы определили допустимый уровень значимости — 95%. И если результат эксперимента ниже этого порога, вероятнее всего полученные изменения не связаны с изменением продукта.

Много лет назад вероятность рассчитывали вручную по формулам, но сегодня есть автоматизированные инструменты, упрощающие работу аналитика. Например, калькулятор A/B-тестирования от Яндекса.

Указав данные, получим необходимые расчеты и рекомендации по внедрению нововведений. В нашем случае, когда конверсия с 4% увеличилась до 9%, аналитический анализ дает рекомендацию по масштабированию новой версии лендинга на всю аудиторию. Такой калькулятор подходит для анализа результатов любых тестов, связанных с конверсией.

Проводя первые тестирования, специалисты допускают типичные ошибки. Предлагаем ознакомиться с наиболее распространенными:

Множественное сравнение. Если смотрим на 10 разных метрик по результатам теста, вероятность ошибки возрастает, так как у нас при принятии статистического решения везде возможна ошибка первого рода. Перед проведением тестирования мы определяем, что вероятность увидеть ошибку там, где ее нет — 5%. Если рассматривать 10 метрик, то вероятность поднимется до 40%, (1 – (1 – 0,05)**10 = 0.4).
Проблема подглядывания (ранняя остановка теста). Принятие окончательного решения раньше окончания срока тестирования, в результате чего возрастает вероятность ошибки первого рода.

Также стоит учитывать, что статистическая значимость не всегда равна практической значимости. Например, проверка новой версии приложения на ограниченной аудитории показала статистическую значимость, но реальных и ощутимых изменений метрики нет. В таком случае принимаем решение доработать новую версию и запустить новое тестирование.

A/B тесты — отличный инструмент для проверки новых идей и гипотез. Он подразумевает под собой «выкат» обновлений на определенную часть аудитории и отслеживание изменений ключевых метрик. На основе тестирования и анализа изменения метрик принимается объективное решение о дальнейших действия по изменению продукта.

Не забывайте, что данный инструмент — не волшебная палочка. В большинстве случаев он дает возможность не ошибиться, нежели найти новую точку роста. Больше 50% тестов заканчиваются отсутствием статистической значимости и отказом от внесения предложенных правок.

2 комментария

EveryStraus _

10.06.2020

Всегда проводим А/В-тесты. Постоянно тестируем новые гипотезы, стратегии, креативы. А/В-тестирование — неотъемлемая часть качественной работы маркетолога. Рекомендуем уделять этому должное количество времени.

Ответить

pvm

03.09.2020

Пожалуй, термин "уровень значимости" в статье стоит заменить. В калькуляторе Яндекса это p-value. Приведенная в статье ссылка на "уровень значимости" в Википедии дает определение, отличающееся от того, что в статье

A/B тесты — что это такое и как использовать?

Что такое АБ-тест

Кому и для чего нужны АБ-тесты

Когда нужны АБ-тесты

Интересные факты

Как провести АБ-тест за 6 шагов

Шаг 1. Поставить цель

Шаг 2. Выбрать метрику

Шаг 3. Определиться с гипотезами

Шаг 4. Определиться с дизайном

Шаг 5. Провести эксперимент

Шаг 6. Проанализировать результаты

Какова роль аналитика в АБ-тестировании

Частые ошибки в А/Б тестах

Ещё более подробно про A/B-тестирование мы рассказываем на нашем курсе «Профессия: Аналитик» 👉 Узнать подробности