От теории к практике: как СберМегаМаркет проверяет новые решения на собственной платформе экспериментов

В СберМегаМаркете распространена культура тестирования гипотез прежде, чем «выкатывать» нововведения на всю аудиторию пользователей. Рассказываем, как нам удается тестировать десятки идей одновременно и принимать решения на основе данных.

Как известно, дьявол в мелочах. Когда основное взаимодействие пользователя с продуктом происходит в онлайне, даже самые мелкие недочеты на сайте или в приложении могут встать на пути получения пользователем желаемого опыта и на развитии компании в целом. Поэтому важно постоянно реагировать на запросы и поведение пользователей, а также делать это оперативно.

Клиентский путь индивидуален для каждого продукта или сервиса. Планируя интеграцию тех или иных решений, не всегда можно руководствоваться только сторонними исследованиями или собственным опытом. Исследования могут стать источником инсайтов и помогать в построении гипотез, но финальное решение стоит принимать на основе предпочтений своей аудитории (ведь каждый продукт уникален). И чтобы не столкнуться с ситуацией «ожидание ≠ реальность», необходимо ориентироваться на поведение пользователей непосредственно внутри своего продукта.

Для этих целей используется А/Б-тестирование. Это количественный метод исследования, который подразумевает сравнение продуктовых и бизнес-метрик между группами пользователей. Разместить кнопку справа или слева? Сделать горизонтальное или вертикальное выпадающее меню? Стоит ли вообще вносить изменения или лучше оставить все как есть? На такие вопросы и помогают ответить А/Б-тесты.

Обозначаем гипотезу и метрики, которые ее подтвердят или опровергнут

В качестве метрик оценки эксперимента задаются наиболее чувствительные, то есть те метрики, на которые эксперимент повлияет вероятнее всего. Например, если мы изменили дизайн кнопки «Купить» или дизайн фильтров на странице листинга товаров, то вряд ли такие изменения повлияют на GMV (Gross Merchandise Value) или средний чек. В большинстве экспериментов целевыми метриками являются продуктовые метрики – такие, как CTR, CR.

Запускаем и проводим эксперимент

Под запуском эксперимента понимается независимое деление пользователей на группы (2 и более). По итогу деления каждому пользователю показывается определенный вариант контента в зависимости от того, в какую группу распределен пользователь. Также данные по эксперименту попадают в аналитику.

Делаем выводы

Когда эксперимент набирает необходимое количество наблюдений (пользователей), аналитики переходят к подсчету эксперимента на основании выбранных метрик с помощью статистического критерия. Таким образом, можно получить точные результаты и подтвердить или опровергнуть гипотезу о положительном эффекте проверяемой «фичи» на пользователей.

A/B-тестирование очень распространенный метод исследования. Поэтому есть достаточно много готовых внешних решений, таких как Firebase, Optimize и другие. Однако мы разработали собственную платформу A/Б-тестирования для того, чтобы добиться следующих целей:

Кастомизировать эксперименты

Проведение А/Б-тестов с помощью внешних решений обычно связано с довольно жесткими ограничениями. Например, чаще всего нельзя настроить тестирование так, чтобы одна и та же аудитория одновременно видела более одного эксперимента (два ортоганальных теста). Если параллельно запускать эксперименты на разной аудитории, количество пользователей, которые их видят, сокращается. При запуске двух экспериментов на каждый из них приходится по 50% трафика, для четырех — это число сокращается до 25% и так далее. А если нужно одновременно проверять десятки гипотез, размер задействованной аудитории становится совсем крошечным. И чем меньше пользователей участвует в эксперименте, тем больше времени требуется на сбор необходимых данных. Нам такое не подходит.

Еще одна сложность связана с настройкой метрик исследования. Во внешних системах эксперимент настраивается на одну конкретную метрику, например, на проверку конверсии из карточки товара в корзину. При таком раскладе легко упустить «провисание» других показателей. Пользователи могут чаще добавлять товары в корзину, но при этом размер среднего чека уменьшится.

Включение в параметры эксперимента дополнительных метрик позволяет значительно снизить риск того, что важные для бизнеса показатели останутся незамеченными.

Наконец, при обращении к сторонним решениям можно столкнуться с ограничениями по статистическим критериям. Другими словами, система сама решает, когда эксперимент может считаться завершенным и как его просчитывать. Изменить эти критерии нельзя, даже если они не до конца отвечают потребностям бизнеса. В то же время во внутренней системе аналитик сам принимает решение, какой статистический критерий наиболее подходящий для используемого типа метрик. Это позволяет, с одной стороны, получить более точные результаты, а с другой – сократить срок тестирования.

Облегчить проведение эксперимента для всех стейкхолдеров

Традиционно при проведении А/Б-тестирования велика роль продуктовых аналитиков, которые привлекаются для прогнозирования и расчета эксперимента, и разработчиков, которые занимаются его настройкой. Создание собственной платформы дает возможность формировать интерфейс так, чтобы он был максимально прост в использовании для всех сотрудников. Продакт-менеджеры получают больший контроль над проведением эксперимента – нагрузка на аналитиков и разработчиков снижается.

Поддержать культуру тестирования

В СберМегаМаркете принято каждую гипотезу подкреплять результатами исследований и экспериментов. Поскольку компания крупная, единовременно в разработке могут находиться сразу десятки решений, каждое из которых нужно протестировать. И по мере того, как площадка развивается, растет и количество необходимых экспериментов. Обращаясь к внешним решениям, мы бы просто не справились с таким объемом работы. На проведение каждого эксперимента уходили бы месяцы, если не годы, а в это время накапливались бы все новые и новые гипотезы. Такой подход не только тормозил бы развитие бизнеса, но и приводил бы к устареванию решений еще прежде, чем мы успевали бы их запустить.

Ускорить подмену контента

Во время проведения эксперимента требуется быстрый ребрендинг страницы для тестовой группы. Подмена контента должна происходить бесшовно, чтобы пользователи не замечали характерного «мигания». В противном случае снижается качество опыта взаимодействия с сайтом или приложением. Использование собственной платформы экспериментов автоматически обеспечивает бесшовный ребрендинг без установки антифликера.

SCULLY – название нашей платформы. Да, мы вдохновлялись сериалом «Секретные материалы», и вот что из этого вышло :)

Платформа используется для тестирования витрины товаров на СберМегаМаркете, которая обладает сложной структурой со множеством элементов. Отдельно проверяются метрики, связанные с:

карточкой товара
навигацией
личным кабинетом пользователя и авторизацией
чекаутом (страница корзины с добавленными товарами)
сервисными схемами
работой мобильного приложения
главной страницей
рекламной платформой
рекомендательной системой
лояльностью

На сегодняшний день на платформе одновременно может проводиться около 60 экспериментов. При этом в среднем один эксперимент завершается в течение двух недель, в то время как у внешних систем на решение этой задачи уходит один-два месяца.

Над SCULLY и развитием экспериментов в компании работает целая команда, состоящая из продакт-менеджера, аналитика, дизайнера и команды разработки. SCULLY оснащена user-friendly интерфейсом. Продакт-менеджеры СберМегаМаркета могут в любой момент зайти на платформу, самостоятельно создать новый эксперимент, посмотреть, как проходят текущие тесты, при необходимости внести корректировки и изучить историю изменений, обращаясь к разработчикам только для настройки логики отображения контента на сайте или в приложении.

На данный момент аналитики все еще выполняют большую работу по прогнозированию экспериментов: оценивают, сколько данных необходимо для проведения теста, каких результатов можно добиться, достаточно ли трафика на странице. Также вручную проходит расчет эксперимента. Но сейчас команда SCULLY работает над автоматизацией расчета экспериментов и визуализацией результатов в админке в онлайн-режиме. Это позволит еще больше снизить нагрузку на аналитиков.

Приведем несколько примеров, чего нам удалось достичь с помощью своего решения.

Оформление витрины экспресс-доставки

В 2021 году мы начали развивать систему экспресс-доставки «СберМегаМаркета». О том, как мы ее строили мы уже подробно рассказали в нашей предыдущей статье – рекомендуем почитать.

На тот момент функция «экспресс доставки» была в новинку, и нам предстояло выяснить, как преподнести предложение наиболее выгодным образом, какие параметры лучше всего влияют на важные для нас метрики. В результате мы создали витрину для экспресс-доставки, которая должна была размещаться внутри площадки.

Оставалось протестировать эффективность такого решения. Мы провели А/Б-тест, в котором половина аудитории видела витрину, а половина – нет. Результаты эксперимента показали, что благодаря витрине поднимается показатель добавлений товаров в корзину. Ярче всего эта закономерность прослеживалась у продавцов, предлагающих FMCG-товары, таких как Самокат или СберМаркет. Тем не менее, некоторые метрики остались без изменений – например, конверсия оформлений заказов.

Мы постоянно работаем нал улучшением витрины: проводим различные А/Б-тесты для «выравнивания» метрик и достижения оптимальных результатов по всем показателям.

Влияние на конверсию информации о снижении цены товара

Мы предложили продавцам присылать «старую цену» на товар, которая отображалась бы в карточке товара в виде зачеркнутой цены и скидки продавца. Во время А/Б-тестирования одна группа пользователей видела цену до скидки и новое предложение продавца, а второй демонстрировалось только актуальное предложение. Эксперимент охватывал сразу несколько метрик:

конверсию в клик на карточку с листинга для товаров, на которых есть скидка продавца;
конверсию в добавление в корзину после просмотра листинга для товаров, на которых есть скидка продавца;
конверсию в клик на карточку с листинга для всех товаров;
конверсию в добавление в корзину после просмотра листинга для всех товаров.

В результате мы выяснили, что конверсия добавления в корзину товаров, где видна разница между старой ценой и скидочной, поднялась на 29%. Так что данный метод отлично подходит для продвижения отдельных продуктов.

Наша платформа экспериментов пока что работает не в полную силу. Для того чтобы ее потенциал полностью раскрылся, нам предстоит еще внести ряд изменений. Но уже сейчас она стала для нас незаменимым помощником в развитии бизнеса.

A/Б-тесты – самый эффективный метод тестирования гипотез для многих продуктов, но прежде, чем внедрять этот метод в своей компании, следует понимать поможет ли он вашему продукту стать эффективнее.

Создавать свое решение или использовать готовое – зависит от задач бизнеса. Но при обоих раскладах бизнесу потребуются:

Ресурсы опытного аналитика, который имеет большой опыт проведения экспериментов;
Разработчики, которые помогут реализовать механику подмены контента на сайте/приложении;
Внедрение культуры принятия решений на основе данных, а не решения конкретного человека или группы людей;
Большой трафик на продукт, так как для проверки гипотезы необходимо иметь достаточное количество наблюдений (закон больших чисел).

Все вышеперечисленные пункты одинаково важны и чтобы достичь эффекта от внедрения А/Б-тестирования необходимо учитывать каждый.

Кстати, у нас открыто несколько вакансий, связанных как с проведением А/Б тестов, так и с анализом их результатов:

1. Старший продуктовый аналитик https://hh.ru/vacancy/50037080

2. Менеджер по управлению продуктом «Регистрация и онбординг» https://hh.ru/vacancy/54496822

3. Менеджер по управлению продуктом «Кабинет рекламодателя» https://hh.ru/vacancy/54250620

13 комментариев

Anna Voronova

19.04.2022

У нас сейчас тоже пилится своё решение для тестов. Подмывает теперь назвать «Малдером» 😄

Ответить

Мегамаркет

Автор

Возражений не имеем!))

Алина Соломина

Спасибо, интересно! Скажите, а вы тестируете абсолютно все нововведения?

20.04.2022

Мы стараемся тестировать все гипотезы. Но как и в любом продукте, у нас бывают ASAP изменения, для которых нет времени на тестирование. Бывает и так, что независимо от результатов эксперимента мы внедряем изменения, так как в этом есть необходимость в виду внешних факторов) Надеемся, ответили на ваш вопрос

От теории к практике: как СберМегаМаркет проверяет новые решения на собственной платформе экспериментов

Истина где-то рядом: зачем бизнесу А/Б-тестирование?

Три обязательных этапа А/Б-тестирования

Свое решение vs. коробочное: как принимали решение?

Знакомьтесь, SCULLY

Кейсы тестирования

Post Scriptum, или коротко о главном