Что я понял, проведя 350+ A/B-тестов в интернет-магазинах

Всем привет, меня зовут Капитон, я сооснователь и генеральный директор сервиса Popmechanic.io. Он помогает увеличивать выручку интернет-магазинов, количество собираемых email’ов, персонализирует сайты с помощью попапов и встроенных блоков без привлечения вашего IT. В этой статье я поделюсь:

  • почему не надо при A/B-тестах на сайте во главу угла ставить только метрику конверсии или среднего чека, если хотим растить выручку
  • типичными ошибками и методологией правильных A/B-тестов
  • метриками, на которые проще и удобнее смотреть
  • ссылкой файл со 100 механиками увеличения конверсии.

Статья будет полезна, если ваши знания в теме средние и ниже.

Дисклеймер 1: Во всех моих следующих примерах мы берем за аксиому, что количество трафика, его качественная структура никогда не меняются.

Дисклеймер 2: В статье много математики. Прежде, чем начать эту относительно сложную тему, которая несомненно вас прокачает, хочу подбодрить вас и сказать, что в конце статьи я дам инструменты, которыми могут пользоваться специалисты почти любого уровня подготовки.

Почему стоит прислушаться?

У меня много практического и свежего опыта по запуску персонализации сайта в интернет-магазинах, механик по увеличению конверсии, дохода и других измеримых целей. Нашими технологиями пользуются как крупные междунарондные компании типа Oriflame, Puma, Nikon, United Colors of Benetton, так и начинающие интернет-магазины.

И если вы проводите A/B-тесты на вашем сайте, ориентируясь только на конверсию или средний чек, то у меня для вас плохая новость.

Плохая новость

Это не работает.

Обычно первая цель, которую мы ставим перед собой на внедрениях «под ключ» или рекомендуем ставить клиентам, когда они делают все сами – увеличить выручку. Так спокойнее и нам, и клиенту. Все знают, что платформа окупилась, и можно заниматься другими хотелками: улучшать конверсию в оставленный email, показывать всякие акции, промотировать категории или бренды, проводить розыгрыши по пятницам и всякое разное.

Так вот, я до сих пор слышу от маркетологов (и даже крупных международных компаний!) такие фразы:

  • «Наш руководитель сказал, чтобы увеличить выручку, нужно поднять конверсию, поэтому это наша цель».
  • «Мы не будем раздавать промокоды, потому что это уронит средний чек, а следовательно, выручку».

В целом, звучит разумно, но дьявол, как обычно, в деталях.

Детали

Всю выручку можно представить в виде произведения среднего чека на количество транзакций. Или площадь прямоугольника:

Выручка интернет-магазина – произведение транзакций и среднего 

Вот что может произойти, если вы будете целиться в увеличение среднего чека:

Утрированный пример №1 – рост среднего чека ведет к падению конверсии

А вот это, если в конверсию:

Утрированный пример №2 – рост конверсии ведет к падению среднего чека

Надеюсь, что последние две картинки про сильно утрированные ситуации убедили вас, что хорошо бы следить за обеими метриками. Спасибо, кэп, расходимся! But wait.

Простой тест

Есть два варианта отображения страницы корзины: с товарными рекомендациями «Хиты продаж» и персональными – подобранными под интерес конкретно этого пользователя. Средний чек обоих вариантов одинаковый.

Мы поделим трафик на 2 ветки, и определим заранее, что в каждой из них будет по 1 000 сеансов. И вот что получили на выходе:

Вопрос: какой вариант оставить, чтобы зарабатывать больше?

Ответ: хз.

Очевидно, что ветка с персональными рекомендациями по результатам теста заработала больше денег. Неочевидно, что это случайность. На самом деле доверять тестам вот так «на глаз» категорически неверно.

Доверительный интервал

Сейчас уже много людей знают, про эту метрику и про способы ее измерения. Повторение мать учения, да и подводные камни есть. Постараюсь быстро и простыми словами.

Доверительный интервал – это такой интервал, который с заданной вероятностью будет содержать реальное значение конверсии. Общепринятый бенчмарк вероятности – 95%. Грубо говоря, если реальное значение конверсии лежит в вычисленном интервале с вероятностью 95%, то считаем тест завершенным.

Формула подсчета доверительного интервала, где Т – конверсия, полученная в результате теста для одного из вариантов, N – размер выборки. Олег Якубенков, gopractice.ru

Вернемся к нашему примеру с рекомендациями и посчитаем доверительный интервал для каждого из вариантов:

Доверительные интервалы алгоритмов рекомендаций в корзине "Хиты продаж" и персональными

Читать табличку так: с вероятностью 95% реальное значение конверсии для «Хитов продаж» лежит в интервале от 3,6% до 6,4%, а для персональных от 3,2% до 5,8%. Обратите внимание, что значения 5% и 4,5% лежат ровно посередине между границами интервалов.

Теперь мы знаем, что реально значения конверсии каждого из вариантов не 5% и 4,5%, а с вероятностью 95% лежат где-то между 3,6% до 6,4% и 3,2% до 5,8%.

Отлично! Эээ, ну и что?

Доверительный интервал разницы

Теперь нам нужно сделать то же самое для разницы полученных конверсий. Я уже не буду уходить в статистические дебри, просто дам формулу расчета и расскажу, как интерпретировать результат.

Формула подсчета доверительного интервала разницы вариантов, где conv1 – конверсия варианта 1, conv2 – конверсия варианта 2, N1 и N2, размеры выборок каждого из вариантов. Олег Якубенков, gopractice.ru

И вот что мы получаем на выходе для нашего примера:

Интепретация: улучшение в конверсии с вероятностью 95% лежит в промежутке от -2,4% до 1,4%. То есть улучшение может быть 0, а то и отрицательной. Так как мы с вами разумные маркетологи, и нам нужна только положительная разница, делаем вывод: разницы между вариантами нет.

А есть что попроще?

Да. Думаю, что будет полезно дать вам такой калькулятор, чтобы вы не считали каждый раз по формуле и могли помоделировать разные ситуации и лучше понять. Поэтому вот ссылка, копируйте себе и пользуйтесь.

Еще полезный инструмент, который по своей сути решают ту же задачу, но, как мне кажется, проще для восприятия – готовый калькулятор
статистической значимости. Заходите в раздел «Итоги тестирования» и проверяйте свои результаты.

Частая ошибка

Поскольку в нашей профессии есть возможность наблюдать за экспериментами онлайн, некоторые маркетологи просто запускают тест и ждут, когда статистическая значимость достигнет 95%. Это в корне неверно и называется проблемой подглядывания. Подробнее читайте тут.

Если пользуетесь таким методом подсчета, заранее определяйте размер выборки. Это можно сделать «пальцем в небо», а можно в том же калькуляторе, что привел выше.

В конце я поделюсь инструментом, позволяющим принимать решения онлайн.

А средний чек считается так же?

Нет. Проблема в том, что конверсия подчиняется закону нормального распределения, а сумма покупок нет. К сожалению, тоже довольно частая ошибка в стандартной калькулятор статистической значимость вставлять данные по среднему чеку.

Давайте посмотрим, как выглядит распределение вероятности конверсии из примера с персональными рекомендациями:

Пример распределения вероятности конверсии из примера с персональными рекомендациями

Помните, что на самом деле конверсия этого варианта не 5%, а с вероятностью 95% от лежит 3,6% до 6,4%? Еще можно сказать, что с вероятностью 47,7% лежит от 3,6% до 5, и что с вероятностью 47,7% от 5 и до 6,4%.

Для конверсии график всегда будет выглядеть так – симметричный и пересекающийся с одновременно средним, медианным и модальным значениями в своей вершине.

Сумма покупок же гамма-распределена. Вершина графика распределения будет смещена влево. Давайте рассуждать логически. Скорее всего, людей которые покупают на сильно большие чем средний чек суммы в магазине должно быть меньше. Хотя бы потому что по статистике бедных людей гораздо больше, чем богатых.

Тогда кривая распределения сумм покупок будет выглядеть так:

Кривая гамма-распределения сумм покупок

Дальше копать не нужно, просто зафиксируем, что ввиду различий природы распределения конверсии и сумм покупок нельзя для измерения статистической значимости изменений в среднем чеке использовать стандартный статистический калькулятор, в том числе те, что я привел выше.

Еще одна ошибка

Я видел много опубликованных кейсов с формулировками типа «конверсия статистически значимо выросла на 11%, а средний чек упал на 8%, перемножаем и получаем 2% роста». При этом методология подсчета конверсии приводится, а среднего чека – нет. Я подозреваю, что в 95% случаев, берется просто средний чек вариантов тестирования, без сложных вычислений. Почему подозреваю – в следующем параграфе.

Надеюсь, что к этому моменту вы уже поняли, что и у среднего чека тоже будет доверительный интервал. То есть в примере выше могло получиться так, что рост конверсии был сведен на нет падением среднего чека. В общем, не надо так.

Не считайте доверительный интервал разницы среднего чека

Это. Очень. Геморройно.

Нужно либо пользоваться пользоваться платными калькуляторами типа вот этого, предварительно посчитав историческую дисперсию по среднему чеку на уровне пользователей.

Либо можно настроить ваш Google Analytics таким образом, чтобы была возможность выгрузки несемплированных данных на уровне пользователей и дальнейшей их загрузки в специальный аналитический софт типа R Studio.

Так как же нам достоверно увеличивать выручку? Наконец, хорошие новости.

Хорошие новости

1. Чтобы не считать отдельно средний чек и конверсию, умные люди придумали композитную метрику RPV – revenue per visitor (или revenue per session). То есть выручка, который нам приносит одна сессия. Давайте посмотрим, какая математика за этим стоит:

Выручка = средний чек*транзакции

Конверсия = количество транзакций/количество сессий

RPV (или выручка/количество сессий) = средний чек*конверсия

Хорошая это новость потому, что мы уже избавились от необходимости высчитывать статзначимость двух метрик и потом их перемножать.

Внимательный читатель возразит: "Но ведь выручка на сеанс тоже будет распределена не нормально!". И я отвечу: "Время для второй хорошей новости".

2. Еще одни умные люди из компании Google создали классный инструмент, который, как мне кажется, сильно недооценен. Называется он Google Optimize, работает на данных Google Analytics. Он умеет определять, какой из вариантов дает больший RPV.

Под капотом у него байесовский вывод, который дает ряд преимуществ перед стандартным частотным подходом (со статзначимостью):

  • может использоваться как для нормального, так и для гамма-распределения (и еще пачки других)
  • решает проблему подглядывания, то есть не нужно заранее вычислять размер для выборки – запустили и ждем результата
  • работает лучше, когда мало данных (читай маленький трафик), что критически важно, так как не все могут ждать результатов месяцами.

У этого подхода есть еще преимущества, если хотите упороться по их методологии, вам сюда.

Это про деньги

Здесь исчезает понятие статистической значимости, и появляется метрика вероятности побить исходную версию. Она лучше подходит для маркетологов, потому что отвечает на прямой бизнес-вопрос "Какой вариант, мать его, дает больше денег?!".

Отчет в Google Optimize по RPV одного из наших клиентов

Можно настраивать до 5 целей одновременно в рамках одного эксперимента, в т.ч. конверсия, глубина просмотра и любые цели, которые установлены в GA.

Что по интеграции

Вам точно нужно будет настроить отслеживание электронной коммерции в Google Analytics и поставить отслеживающий код Optimize на сайт. Можно довольно просто это сделать через Google Tag Manager.

На другие метрики забиваем?

Конечно же, нет. Средний чек и конверсия – важные метрики, которые несут в себе много информации о работе вашего сайта. Просто если вы проводите тест с целью больше заработать – смотреть на RPV проще.

Если растет RPV – значит в целом с продажами у этой ветки все ок, дальше для инсайтов можно копать за счет чего именно – среднего чека или конверсии .

Мы обычно настраиваем две цели – на доход и на транзакции. И можно уже быстрее ориентироваться. Растет RPV, но нет разницы в транзакциях, скорее всего, растет средний чек. Растет и RPV, и транзакции? Значит, влияние среднего чека либо незначительно, либо совсем нет.

Вокруг чего выстраивать тесты

Если цель – увеличить выручку, я бы рекомендовал в первую очередь тестировать механики, которые связаны с действиями с корзиной:

  • товар был добавлен в корзину
  • товар был добавлен в корзину на определенную сумму
  • посетитель провел на сайте больше, чем среднее время конверсии, и НЕ добавил товар в корзину
  • смотрит страницу корзины, в которой есть товары.

И множество вариаций и комбинаций вышеперечисленного. Начинайте с простого. Например, после добавления товара в корзину показать промокод на скидку 5% и таймер на 15 минут vs ничего не давать.

Реальные примеры и 100 механик

Если интересно посмотреть на реальные примеры, сколько на этом можно заработать, вот супер-свежий кейс на VC. А вот целая пачка кейсов.

Как технически реализовать механики

Увеличить выручку Optimize'ом можно за счет тестирования двух вещей:

1. Текстов (на лендинге, на таймере в корзине, в попапе). По моей практике тексты реально могут приносить значимую разницу, но только если они реально на виду. Например, текст на первом экране главной страницы или в попапе.

2. Самих механик (с таймером в корзине и без, с попапом на подписку и без). Потенциал изменений у них по моей практике больше, так как изменения более видимые и смелые в целом.

Так вот, 1 пункт вы можете сами сделать бесплатно. И применять не только в ecommerce – везде. Нужно поставить скрипты Optimize, Analytics и настроить цели в нем. Скрипт Optimize сможет менять тексты, цвета, стили. Вот как это выглядит:

Как скрипт Optimize определил блок текста на главной странице popmechanic.io

Механики из пункта 2 бесплатно, увы, запилить не получится:

  • придется либо ставить задачу свои разработчикам, чтобы, например, в определенный момент инициировался javascript и показывался попап, а это уже деньги компании, выраженные в ЗП разработчиков
  • либо обращаться в сервисы, у которых есть уже готовые механики и интеграция с Google Optimize. Например, наш. Скорее всего, есть и другие.

Я обожаю, когда после долгих изучений темы, в итоге находится какая-нибудь важная деталь, и я снова неправ. Потому что так учусь. Поэтому, пишите в комменты.

Еще буду рад, если оставите мнение, была ли полезна эта статья. И если да, то подкидывайте темы, которые было бы интересно почитать в моем исполнении.

Добавляйтесь ко мне в фейсбук, будем обсуждать продукты, маркетинг, аналитику.

0
66 комментариев
Написать комментарий...
Vikium

Капитон, материал отличный, спасибо.

Исходя из вашего опыта - какие проведённые тесты давали самый видный глазу результат?

Ответить
Развернуть ветку
John Doe

Наймите дата-сайентистов с опытом работы минимум на десятках миллионов клиентов. Будет сильно дороже, но получите предсказуемый результат. К сожалению это все устроено таким образом, что опыт работы с большими выборками можно и нужно использовать на маленьких, но не наоборот.

Ответить
Развернуть ветку
Илья Разумин

Так ведь оплата дата-сайентистам съест всю выгоду от роста, если мы говорим про маленькие выборки. Маленьким остается только ориентироваться на уже проверенное большими.

Ответить
Развернуть ветку
John Doe
Маленьким остается только ориентироваться на уже проверенное большими.

Конечно! И либо не устраивать экспериментов, либо просто верить в то, что это к лучшему. От того, что на Вашей небольшой выборке Вам насчитают, что выручка то ли выросла на 2.5%, то ли на столько же упала Вам лучше не станет.

Ответить
Развернуть ветку
Kapiton Smirnov
Автор

Маленьким магазинам можно просто посмотреть наши кейсы, там будет на годы вперед проверенных на крупных механик. Да и вообще кейсы почитать любые по теме. 

Но Оптимайз реально хорош в работе на небольших выборках. Мы за 2 недели заканчивали эксперименты на трафике до 60 000 уников. 

Ответить
Развернуть ветку
John Doe
Мы за 2 недели заканчивали эксперименты на трафике до 60 000 уников.

Эммм... Это много? У нас контрольная группа была (контрольная, а не целевая!) - 3.5 млн. клиентов :)

Маленьким магазинам можно просто посмотреть наши кейсы, там будет на годы вперед проверенных на крупных механик

Механики у всех одинаковые - крайне редко что-то новое появляется. Правильный вопрос - это как использовать механику, но так, чтобы оптимизировать прирост целевого КПИ против давления на маржу. И здесь десятки тысяч уников не помогут, на таких объемах ответы будут ровно такие, как у Вас в тексте: "то ли выросло, то ли упало".

Ответить
Развернуть ветку
John Doe

Собственно то, что десятки тысяч - это "ниачем" на собственном опыте могу сказать. Когда с "работы на дядю", но на базе в десятки миллионов переключился на работу на себя, но на сотнях тысяч юников в месяц, то ощущалось это - как будто раньше ты смотрел на поведение базы через отличный Цейсовский микроскоп, а тут у тебя вместо него - грязный осколок от бутылки.

Ответить
Развернуть ветку
63 комментария
Раскрывать всегда