Что я понял, проведя 350+ A/B-тестов в интернет-магазинах

Всем привет, меня зовут Капитон, я сооснователь и генеральный директор сервиса Popmechanic.io. Он помогает увеличивать выручку интернет-магазинов, количество собираемых email’ов, персонализирует сайты с помощью попапов и встроенных блоков без привлечения вашего IT. В этой статье я поделюсь:

почему не надо при A/B-тестах на сайте во главу угла ставить только метрику конверсии или среднего чека, если хотим растить выручку
типичными ошибками и методологией правильных A/B-тестов
метриками, на которые проще и удобнее смотреть
ссылкой файл со 100 механиками увеличения конверсии.

Статья будет полезна, если ваши знания в теме средние и ниже.

Дисклеймер 1: Во всех моих следующих примерах мы берем за аксиому, что количество трафика, его качественная структура никогда не меняются.

Дисклеймер 2: В статье много математики. Прежде, чем начать эту относительно сложную тему, которая несомненно вас прокачает, хочу подбодрить вас и сказать, что в конце статьи я дам инструменты, которыми могут пользоваться специалисты почти любого уровня подготовки.

У меня много практического и свежего опыта по запуску персонализации сайта в интернет-магазинах, механик по увеличению конверсии, дохода и других измеримых целей. Нашими технологиями пользуются как крупные междунарондные компании типа Oriflame, Puma, Nikon, United Colors of Benetton, так и начинающие интернет-магазины.

И если вы проводите A/B-тесты на вашем сайте, ориентируясь только на конверсию или средний чек, то у меня для вас плохая новость.

Это не работает.

Обычно первая цель, которую мы ставим перед собой на внедрениях «под ключ» или рекомендуем ставить клиентам, когда они делают все сами – увеличить выручку. Так спокойнее и нам, и клиенту. Все знают, что платформа окупилась, и можно заниматься другими хотелками: улучшать конверсию в оставленный email, показывать всякие акции, промотировать категории или бренды, проводить розыгрыши по пятницам и всякое разное.

Так вот, я до сих пор слышу от маркетологов (и даже крупных международных компаний!) такие фразы:

«Наш руководитель сказал, чтобы увеличить выручку, нужно поднять конверсию, поэтому это наша цель».
«Мы не будем раздавать промокоды, потому что это уронит средний чек, а следовательно, выручку».

В целом, звучит разумно, но дьявол, как обычно, в деталях.

Всю выручку можно представить в виде произведения среднего чека на количество транзакций. Или площадь прямоугольника:

Выручка интернет-магазина – произведение транзакций и среднего

Вот что может произойти, если вы будете целиться в увеличение среднего чека:

Утрированный пример №1 – рост среднего чека ведет к падению конверсии

А вот это, если в конверсию:

Утрированный пример №2 – рост конверсии ведет к падению среднего чека

Надеюсь, что последние две картинки про сильно утрированные ситуации убедили вас, что хорошо бы следить за обеими метриками. Спасибо, кэп, расходимся! But wait.

Есть два варианта отображения страницы корзины: с товарными рекомендациями «Хиты продаж» и персональными – подобранными под интерес конкретно этого пользователя. Средний чек обоих вариантов одинаковый.

Мы поделим трафик на 2 ветки, и определим заранее, что в каждой из них будет по 1 000 сеансов. И вот что получили на выходе:

Что я понял, проведя 350+ A/B-тестов в интернет-магазинах

Вопрос: какой вариант оставить, чтобы зарабатывать больше?

Ответ: хз.

Очевидно, что ветка с персональными рекомендациями по результатам теста заработала больше денег. Неочевидно, что это случайность. На самом деле доверять тестам вот так «на глаз» категорически неверно.

Сейчас уже много людей знают, про эту метрику и про способы ее измерения. Повторение мать учения, да и подводные камни есть. Постараюсь быстро и простыми словами.

Доверительный интервал – это такой интервал, который с заданной вероятностью будет содержать реальное значение конверсии. Общепринятый бенчмарк вероятности – 95%. Грубо говоря, если реальное значение конверсии лежит в вычисленном интервале с вероятностью 95%, то считаем тест завершенным.

Формула подсчета доверительного интервала, где Т – конверсия, полученная в результате теста для одного из вариантов, N – размер выборки. Олег Якубенков, gopractice.ru

Вернемся к нашему примеру с рекомендациями и посчитаем доверительный интервал для каждого из вариантов:

Доверительные интервалы алгоритмов рекомендаций в корзине "Хиты продаж" и персональными

Читать табличку так: с вероятностью 95% реальное значение конверсии для «Хитов продаж» лежит в интервале от 3,6% до 6,4%, а для персональных от 3,2% до 5,8%. Обратите внимание, что значения 5% и 4,5% лежат ровно посередине между границами интервалов.

Теперь мы знаем, что реально значения конверсии каждого из вариантов не 5% и 4,5%, а с вероятностью 95% лежат где-то между 3,6% до 6,4% и 3,2% до 5,8%.

Отлично! Эээ, ну и что?

Теперь нам нужно сделать то же самое для разницы полученных конверсий. Я уже не буду уходить в статистические дебри, просто дам формулу расчета и расскажу, как интерпретировать результат.

Формула подсчета доверительного интервала разницы вариантов, где conv1 – конверсия варианта 1, conv2 – конверсия варианта 2, N1 и N2, размеры выборок каждого из вариантов. Олег Якубенков, gopractice.ru

И вот что мы получаем на выходе для нашего примера:

Интепретация: улучшение в конверсии с вероятностью 95% лежит в промежутке от -2,4% до 1,4%. То есть улучшение может быть 0, а то и отрицательной. Так как мы с вами разумные маркетологи, и нам нужна только положительная разница, делаем вывод: разницы между вариантами нет.

Да. Думаю, что будет полезно дать вам такой калькулятор, чтобы вы не считали каждый раз по формуле и могли помоделировать разные ситуации и лучше понять. Поэтому вот ссылка, копируйте себе и пользуйтесь.

Еще полезный инструмент, который по своей сути решают ту же задачу, но, как мне кажется, проще для восприятия – готовый калькулятор
статистической значимости. Заходите в раздел «Итоги тестирования» и проверяйте свои результаты.

Поскольку в нашей профессии есть возможность наблюдать за экспериментами онлайн, некоторые маркетологи просто запускают тест и ждут, когда статистическая значимость достигнет 95%. Это в корне неверно и называется проблемой подглядывания. Подробнее читайте тут.

Если пользуетесь таким методом подсчета, заранее определяйте размер выборки. Это можно сделать «пальцем в небо», а можно в том же калькуляторе, что привел выше.

В конце я поделюсь инструментом, позволяющим принимать решения онлайн.

Нет. Проблема в том, что конверсия подчиняется закону нормального распределения, а сумма покупок нет. К сожалению, тоже довольно частая ошибка в стандартной калькулятор статистической значимость вставлять данные по среднему чеку.

Давайте посмотрим, как выглядит распределение вероятности конверсии из примера с персональными рекомендациями:

Пример распределения вероятности конверсии из примера с персональными рекомендациями

Помните, что на самом деле конверсия этого варианта не 5%, а с вероятностью 95% от лежит 3,6% до 6,4%? Еще можно сказать, что с вероятностью 47,7% лежит от 3,6% до 5, и что с вероятностью 47,7% от 5 и до 6,4%.

Для конверсии график всегда будет выглядеть так – симметричный и пересекающийся с одновременно средним, медианным и модальным значениями в своей вершине.

Сумма покупок же гамма-распределена. Вершина графика распределения будет смещена влево. Давайте рассуждать логически. Скорее всего, людей которые покупают на сильно большие чем средний чек суммы в магазине должно быть меньше. Хотя бы потому что по статистике бедных людей гораздо больше, чем богатых.

Тогда кривая распределения сумм покупок будет выглядеть так:

Дальше копать не нужно, просто зафиксируем, что ввиду различий природы распределения конверсии и сумм покупок нельзя для измерения статистической значимости изменений в среднем чеке использовать стандартный статистический калькулятор, в том числе те, что я привел выше.

Я видел много опубликованных кейсов с формулировками типа «конверсия статистически значимо выросла на 11%, а средний чек упал на 8%, перемножаем и получаем 2% роста». При этом методология подсчета конверсии приводится, а среднего чека – нет. Я подозреваю, что в 95% случаев, берется просто средний чек вариантов тестирования, без сложных вычислений. Почему подозреваю – в следующем параграфе.

Надеюсь, что к этому моменту вы уже поняли, что и у среднего чека тоже будет доверительный интервал. То есть в примере выше могло получиться так, что рост конверсии был сведен на нет падением среднего чека. В общем, не надо так.

Это. Очень. Геморройно.

Нужно либо пользоваться пользоваться платными калькуляторами типа вот этого, предварительно посчитав историческую дисперсию по среднему чеку на уровне пользователей.

Либо можно настроить ваш Google Analytics таким образом, чтобы была возможность выгрузки несемплированных данных на уровне пользователей и дальнейшей их загрузки в специальный аналитический софт типа R Studio.

Так как же нам достоверно увеличивать выручку? Наконец, хорошие новости.

1. Чтобы не считать отдельно средний чек и конверсию, умные люди придумали композитную метрику RPV – revenue per visitor (или revenue per session). То есть выручка, который нам приносит одна сессия. Давайте посмотрим, какая математика за этим стоит:

Выручка = средний чек*транзакции

Конверсия = количество транзакций/количество сессий

RPV (или выручка/количество сессий) = средний чек*конверсия

Хорошая это новость потому, что мы уже избавились от необходимости высчитывать статзначимость двух метрик и потом их перемножать.

Внимательный читатель возразит: "Но ведь выручка на сеанс тоже будет распределена не нормально!". И я отвечу: "Время для второй хорошей новости".

2. Еще одни умные люди из компании Google создали классный инструмент, который, как мне кажется, сильно недооценен. Называется он Google Optimize, работает на данных Google Analytics. Он умеет определять, какой из вариантов дает больший RPV.

Под капотом у него байесовский вывод, который дает ряд преимуществ перед стандартным частотным подходом (со статзначимостью):

может использоваться как для нормального, так и для гамма-распределения (и еще пачки других)
решает проблему подглядывания, то есть не нужно заранее вычислять размер для выборки – запустили и ждем результата
работает лучше, когда мало данных (читай маленький трафик), что критически важно, так как не все могут ждать результатов месяцами.

У этого подхода есть еще преимущества, если хотите упороться по их методологии, вам сюда.

Здесь исчезает понятие статистической значимости, и появляется метрика вероятности побить исходную версию. Она лучше подходит для маркетологов, потому что отвечает на прямой бизнес-вопрос "Какой вариант, мать его, дает больше денег?!".

Отчет в Google Optimize по RPV одного из наших клиентов

Можно настраивать до 5 целей одновременно в рамках одного эксперимента, в т.ч. конверсия, глубина просмотра и любые цели, которые установлены в GA.

Вам точно нужно будет настроить отслеживание электронной коммерции в Google Analytics и поставить отслеживающий код Optimize на сайт. Можно довольно просто это сделать через Google Tag Manager.

Конечно же, нет. Средний чек и конверсия – важные метрики, которые несут в себе много информации о работе вашего сайта. Просто если вы проводите тест с целью больше заработать – смотреть на RPV проще.

Если растет RPV – значит в целом с продажами у этой ветки все ок, дальше для инсайтов можно копать за счет чего именно – среднего чека или конверсии .

Мы обычно настраиваем две цели – на доход и на транзакции. И можно уже быстрее ориентироваться. Растет RPV, но нет разницы в транзакциях, скорее всего, растет средний чек. Растет и RPV, и транзакции? Значит, влияние среднего чека либо незначительно, либо совсем нет.

Если цель – увеличить выручку, я бы рекомендовал в первую очередь тестировать механики, которые связаны с действиями с корзиной:

товар был добавлен в корзину
товар был добавлен в корзину на определенную сумму
посетитель провел на сайте больше, чем среднее время конверсии, и НЕ добавил товар в корзину
смотрит страницу корзины, в которой есть товары.

И множество вариаций и комбинаций вышеперечисленного. Начинайте с простого. Например, после добавления товара в корзину показать промокод на скидку 5% и таймер на 15 минут vs ничего не давать.

Если интересно посмотреть на реальные примеры, сколько на этом можно заработать, вот супер-свежий кейс на VC. А вот целая пачка кейсов.

Наконец, обещанные 100 механик увеличения конверсии, выручки, подписчиков и всякого

Увеличить выручку Optimize'ом можно за счет тестирования двух вещей:

1. Текстов (на лендинге, на таймере в корзине, в попапе). По моей практике тексты реально могут приносить значимую разницу, но только если они реально на виду. Например, текст на первом экране главной страницы или в попапе.

2. Самих механик (с таймером в корзине и без, с попапом на подписку и без). Потенциал изменений у них по моей практике больше, так как изменения более видимые и смелые в целом.

Так вот, 1 пункт вы можете сами сделать бесплатно. И применять не только в ecommerce – везде. Нужно поставить скрипты Optimize, Analytics и настроить цели в нем. Скрипт Optimize сможет менять тексты, цвета, стили. Вот как это выглядит:

Как скрипт Optimize определил блок текста на главной странице popmechanic.io

Механики из пункта 2 бесплатно, увы, запилить не получится:

придется либо ставить задачу свои разработчикам, чтобы, например, в определенный момент инициировался javascript и показывался попап, а это уже деньги компании, выраженные в ЗП разработчиков
либо обращаться в сервисы, у которых есть уже готовые механики и интеграция с Google Optimize. Например, наш. Скорее всего, есть и другие.

Я обожаю, когда после долгих изучений темы, в итоге находится какая-нибудь важная деталь, и я снова неправ. Потому что так учусь. Поэтому, пишите в комменты.

Еще буду рад, если оставите мнение, была ли полезна эта статья. И если да, то подкидывайте темы, которые было бы интересно почитать в моем исполнении.

Добавляйтесь ко мне в фейсбук, будем обсуждать продукты, маркетинг, аналитику.

66 комментариев

Vikium

05.04.2021

Капитон, материал отличный, спасибо.

Исходя из вашего опыта - какие проведённые тесты давали самый видный глазу результат?

Ответить

Kapiton Smirnov

Автор

Спасибо за отзыв!

Вот то, что не меняется со временем:
– совершенно точно таймеры в корзинах
– совершенно точно апселлы типы "добавь еще на 500р и получишь сидку 5%". Есть еще более продвинутая история, которая тоже хорошо работает "добавь на 500р за 5%, добавляет, мы просим еще на 500р, чтобы скидка была 7%".
– совершенно точно все, что связано с играми: колеса фортуны, карточки, однорукий бандит (причем как для сбора подписчиков, так и для механик – крути колесо получишь промокод, который можно применить сразу)
– еще хорошо работает история про бесплатную доставку "до бесплатной доставки осталоcь добавить товаров на 453 рубля". Хороша тем, что не надо раздавать скидок.

Посмотрите файлик из статьи, там должно все это быть.

John Doe

06.04.2021

Наймите дата-сайентистов с опытом работы минимум на десятках миллионов клиентов. Будет сильно дороже, но получите предсказуемый результат. К сожалению это все устроено таким образом, что опыт работы с большими выборками можно и нужно использовать на маленьких, но не наоборот.

В А

Нашими технологиями пользуются как крупные междунарондные компании типа Oriflame, Puma, Nikon, United Colors of Benetton, так и начинающие интернет-магазины... это как на всех остальных сайтах тупо ставят лого разных крупных компаний, мол они наши клиенты)

Можете проверить наш скрипт на перечисленных сайтах, если нечем заняться.

Egor Ozerov

Классная статья. От себя добавлю, что любые манипуляции с эффектом Зейгарник резко увеличивают конверсию интернет-магазинов. Ну и не только. Уверен многие на VC знают что это такое.

Не знал, что этот эффект Зейгерник, спасибо. Я предпочитаю называть это FOMO.

Что я понял, проведя 350+ A/B-тестов в интернет-магазинах

Почему стоит прислушаться?

Плохая новость

Детали

Простой тест

Доверительный интервал

Доверительный интервал разницы

А есть что попроще?

Частая ошибка

А средний чек считается так же?

Еще одна ошибка

Не считайте доверительный интервал разницы среднего чека

Хорошие новости

Это про деньги

Что по интеграции

На другие метрики забиваем?

Вокруг чего выстраивать тесты

Реальные примеры и 100 механик

Как технически реализовать механики