Дизайн АБ тестов (продуктовая аналитика)

Поговорим про документацию АБ-тестов.

Я работал в разных компаниях продакт аналитиком, все они, естественно, проводят много экспериментов. У каждой команды свои методы и любимые критерии, но сейчас не об этом. Их все объединяла одна особенность -- нелюбовь к документированию дизайна теста.

В первый раз, когда я с этим столкнулся, я накидал базовый шаблон, по которому можно было бы понять, спустя время, а что вообще хотели сделать и что получилось. Со временем этот шаблон дополнялся и расширялся, потом сокращался и так кругами. Сейчас он в том формате, который я здесь покажу. На мой взгляд, это оптимальный набор документируемых сведений.

Будет полезно как новичкам в тестированиях, так и командам, у кого документация тестов в приоритетах где-то рядом с деплоем в пятницу вечером. Приятного прочтения!

Дизайн теста (далее ДТ) должен включать в себя несколько важных пунктов. Обычно, в новой компании я приучаю заказчиков заполнять свою часть ДТ, если гипотеза пришла от них.

Эту часть заполняет заказчик гипотезы:

Гипотеза. Тут мы описываем суть идеи, что хотим поменять и зачем.
Описание вариантов. Что меняем в тестовом варианте. Иногда, в зависимости от твоей системы, нужно проставить id вариантов перед стартом, это ты уже потом в доку добавишь.
Чего ожидаем от теста. Ожидаем больше заказов или хотим увеличить возвращаемость, повысить средний чек и т.д. Эта инфа тебе понадобится чуть дальше, при выборе метрик.
Ограничения. Если есть, тут стоит указать. Проводим только на определённом гео или платформе и т.д.

Дальше ты берёшь наработки заказчика и напильник, и начинаешь детализировать:

Ключевая метрика / ОЕС. Иногда это будет просто метрика, на которую тест должен повлиять сильнее всего. Конверсия в регу, в покупку, средний чек, общий доход и т.д. Иногда это целый ОЕС (overall evaluation criterion) -- взвешенная группа ключевых метрик.
Дополнительные метрики. Укажи пару-тройку дополнительных метрик, которые тоже нужно мониторить, но они чуть менее важны чем ключевая. Не перебарщивай с набором метрик, бери только важное, иначе утонешь в интерпретации.
Базовое значение ключевой метрики и её вариативность. Как базу обычно берут среднее, а в качестве меры вариативности -- стандартное отклонение. Не бери большой период, 2-4 недели истории будет достаточно. Нужно чтобы значения были свежими.
MDE (minimum detectable effect). Наши ожидаемые изменения ключевой метрики по итогам теста. Например, мы хотим провести тест на конверсию, мы верим в гипотезу, она разрывная. Наша конверсия обычно 5%, мы хотим поднять её тестом до 7%. Вот эта разница и есть MDE. Чем ниже MDE, тем дольше проводить тест, но тем выше вероятность получить стат. значимый результат. Если мы слишком завысим MDE, то тест будет быстрым, но менее мощным.
Валидация MDE. Я поклонник метода через сигмы — MDE не должен быть выше 2-3 стандартных отклонений, это снижает реалистичность, MDE ниже одного отклонения, возможно, слишком мал и тест может затянуться. Тут надо балансировать.
Рассчитываем выборку. У нас есть всё что нужно для расчёта размеров теста: базовая метрика и MDE. Доверительный уровень, мощность и направление указывай по ситуации.
Расчёт сроков теста. На основании рассчитанных объёмов выборки и средних показателей трафика можно прикинуть сроки проведения теста. Есть нюансы — тест не должен быть короче 1 полной недели, чтобы включить выходные. Если тест слишком долгий, попробуй увеличить MDE.
Добавление в трекинг. Если нужно, можно добавить новые ивенты в разметку, особенно когда тестируем новую фичу. Как минимум нужна индикация, что юзер увидел фичу. Ивенты на новой фиче ещё могут помочь понять воронку и прибавить ещё гипотез, даже если тест не даст положительных результатов. Например, можно будет понять ошибки в дизайне фичи, и перезапустить тест после их исправления.

Пример заполненного ДТ

Поделитесь своими идеями, примерами, как у вас ведется документация, мне правда интересно посмотреть как это реализовано в других командах.

Вообще, у меня есть ТГ канал про практическую продуктовую аналитику, в основном для новичков, которые прошли первые собесы, но понятия не имеют что дальше делать то. Заглядывайте на огонек :)

#аналитика #продуктоваяаналитика #АБтесты #эксперименты #дизайнтестов #гипотеза #оформлениегипотез