Лого vc.ru

Почему результаты удачных A/B тестов в реальности не так хороши

Почему результаты удачных A/B тестов в реальности не так хороши

В новом выпуске рубрике «Интерфейсы» статья специалиста издания SitePoint Керри Баттерс о том, почему A/B тесты в реальном мире могут показывать худшие результаты, чем во время экспериментов, и как этого избежать.

Поделиться

В январе 2014 года Мартин Гудсон из аналитической компании Qubit, опубликовал отчет под названием «Результаты большинства удачных A/B тестов вводят в заблуждение». Керри Баттерс решила проанализировать ситуацию и понять, так ли это на самом деле.

Что такое A/B тестирование

В мире UX и юзабилити обычно под A/B тестами понимают сравнение разных версий веб-страницы с целью выяснения, какая из них показывает лучшие результаты. В ходе теста двум группам людей показывают разные версии страниц, а под результатами обычно подразумевают то, насколько хорошо им удастся взаимодействовать с интерфейсом сайта.

Например, можно провести тестирование страницы с призывом к действию (CTA), разместив его в разных местах или использовав для его оформления другой шрифт, цвет и описание.

A/B тестами проверяются и другие аспекты веб-страниц:

  • заголовки и описания продуктов;
  • формы;
  • оформление страниц;
  • изображения;
  • текст (короткий или длинный);
  • кнопки.

Мартин Гудсон из Qubit утверждает, что результаты, полученные с помощью таких тестов, чаще всего оказываются ложными и ожидаемые улучшения (например, увеличение конверсий) никогда не происходит.

Ошибки при проведении A/B тестов

Прежде всего, для проведения теста, который покажет правдивые результаты, необходимо наличие значительной выборки (т.е. числа людей, участвующих в эксперименте) — статистическая точность растет с её увеличением.

К сожалению, не каждый сайт может похвастаться большим трафиком, поэтому добиться большой выборки удается далеко не всегда. Но и проведение теста при участии малого числа людей с большой вероятностью приведет к получению результатов, которые окажутся неприменимы на практике.

Второй важный аспект A/B тестирования — это длительность проведения эксперимента. Очень часто возникает соблазн прекратить тест, когда достигнут положительный результат, но это уменьшает статистическую точность эксперимента. Если тест проводился на протяжении короткого времени, то вероятность получения ложных результатов очень велика, и вместо ожидаемых улучшений, все может стать только хуже. 

Одновременный запуск множества тестов

Еще одна распространенная ошибка заключается в запуске большого количества тестов. Керри Баттерс уверена, что это плохая идея по той причине, что при проведении 20 тестов, в среднем, только один из них покажет положительный результатат, при 40 тестах, число удачных исходов, в среднем, не превысит двух — вероятность удачного исхода теста составляет лишь 5%.

Компания AppSumo проводила тестирование вариантов оформления письма своей email-рассылки. Только 1 из 8 экспериментов показал приемлемое изменение результатов в лучшую сторону. 

У AppSumo примерно 5000 посетителей в день, поэтому при проведении тестов выборка была не такой большой. Представителям компании удавалось добиваться хороших показаталей (увеличение числа собранных почтовых аккаунтов для рассылки, удвоение числа заказов), но жизнь внесла свои коррективы. 

Протестированные гипотезы, которые должны были привести к хорошим результатам, полностью провалились. Тому есть несколько причин:

  • пользователи не хотят читать текст;
  • в призыве к действию содержались непонятные проценты, вместо понятных долларов;
  • всплывающие и мигающие окна раздражали посетителей сайта.

Для того, чтобы добиться конверсии при наличии вышеописанных минусов бренд должен быть очень известным и уважаемым.

На картинке ниже представлен результат тестирования (негативный) гипотезы, которая состояла в том, что предложение скидки простимулирует пользователей подписаться на рассылку. 

В реальности, такой баннер привел лишь к ухудшению конверсии на целевой странице — число людей, оставляющих свои email-адреса, снизилось.

Керри Баттерс говорит, что email-адрес для многих пользователей все еще является довольно важной вещью, которой не так просто поделиться. Именно поэтому стимул для того, чтобы куда его ввести, должен быть значительным — абстрактные проценты здесь не подходят, лучше четко написать выгоду «в деньгах».

Как правильно проводить A/B тесты

Перед проведением теста Баттерс советует уделить время планированию эксперимента и определению того, как именно должны достигаться положительные результаты (например, увеличение конверсий). По мнению специалиста SitePoint, нужно также определиться и со средством анализа результатов — подобный сервис есть у Google.

Для того, чтобы получить статистически достоверные результаты нужно подождать, пока тест продлится какое-то время, и не прекращать его по достижению желаемых показателей. Баттерс считает подходящей длительностью теста несколько недель или даже месяцев.

Кроме того она рекомендует:

  • тестировать не более одной страницы (или элемента на странице) за раз;
  • выбирать для тестирования страницы с высоким показателем отказов;
  • не ожидать статистически достоверных результатов до достижения отметки в 1000 пользователей, участвовавших в эксперименте;
  • помнить о наличии кривой обучаемости для A/B тестов;
  • предварительно изучать клиентов и посетителей сайта;
  • быть терпеливым и не удивляться неудаче.

Баттерс убеждена, что проведение A/B теста, который приведет к улучшению результатов не только во время эксперимента, но и в реальной жизни, невозможно без предварительного анализа аудитории бизнеса. Очень трудно дать людям то, что они хотят, не имея представления об их потребностях.

Заключение

Автор исследования Qubit Мартин Гудсон говорит, что после проведения теста стоит его повторять, чтобы перепроверить результаты. Кроме того, он заявляет о том, что ожидания улучшений от реализации протестрованной гипотезы, всегда превышают реальные результаты, которые она может дать — это особенно актуально для тестов с небольшим числом участвовавших в них людей.

По мнению Керри Баттерс, A/B тесты — это полезный инструмент, который может приносить хорошие результаты при правильном использовании. Кроме того, его особенность заключается в том, что даже если все сделать правильно, можно не добиться положительного исхода — к этому также нужно быть готовым. Однако предварительная подготовка и анализ, правильная постановка целей и органзаци процесса тестирования, значительно повышают шансы на успех.

Редакция ЦП поинтересовалась у отечественных профессионалов, проводят ли они A/B тесты, и какие метода повышения точности результатов используют:

Андрей Зайцевменеджер по продукту Aviasales.ru
A/B тестирование – это очень мощный и эффективный инструмент, но он требует знаний и соблюдения определённых правил.

Если ими пренебрегать, то вы получите и правильные данные, а следовательно сделаете неправильные выводы и примете неправильные решения, в конце концов потеряете деньги.

К описанным в статье выше постулатам хочу добавить 3 немаловажных нюанса, которые зачастую искажают представление о результатах тестов у начинающих маркетологов и продуктологов:

Первое – это понимание закономерностей и математической статистики в целом. Не всегда большое количество трафика — это хорошо. Как правило, динамика изменения основных показателей сводится к построению sin/cos графика, и зачастую при одних цифрах показатели могут сближаться на определённых экстремумах, а при других сильно расходиться в значениях. То же самое можно спроецировать и на время проведения тестов (если время является для вас основным критерием). Также при моделировании такого анализа не стоит забывать о возможных статистических погрешностях (для более глубокого погружения в данную тему рекомендую ознакомиться с книгой «Прикладная математическая статистика», Кобзарь А.И.).

Еще один момент — очень важно выделять для проведения тестирования приоритетную группу трафика. Пользователи, пришедшие из различных каналов, а также новые пользователи и постоянные, как правило, имеют совершенно различные поведенческие паттерны и могут совершенно по-разному реагировать на изменения, взаимодействовать с сервисом или продуктом. Очень важно изначально определить правильные ключевые каналы и группы тестируемых пользователей. (Для более глубокого погружения в данную тему рекомендую ознакомиться с книгой «Повышение эффективности интернет-рекламы. Оптимизация целевых страниц для улучшения конверсии», Т.Эш).

И последний немаловажный нюанс, про который не стоит забывать, это временные условия. Согласитесь, что качество и количество трафика достаточно сильно отличается в субботу ночью и в 12 часов дня в понедельник. В идеале имеет смысл рассматривать все временные условия жизнедеятельности сервиса при проведении тестирования или же хотя бы ориентироваться на максимально приближенные к благоприятным продуктивным условиям.

Помните, чем больше различных факторов закономерностей и условий вы учтёте при начальном моделировании и планировании тестов, тем более точные и качественные данные вы сможете получить, а, следовательно, сделать правильные выводы.

Иннокентий Нестеренкоруководитель агентства Topright.ru

Статья очень разумная. И дело даже не столько в том, что происходит в реальности, а в том, что большинство маркетологов романтически относится к A/B тестам как к четкому методу, не понимая его ограничений. Гуманитарию (сужу по себе) сложно понять, что A/B тест возвращает не число, а диапазон значений вокруг числа, и чем меньше конверсий, тем шире диапазон, и тем хуже данные (см. справку про стандартное отклонение). Кроме того, чем больше вариаций участвует в тесте, тем медленней копится информация.

Да, конечно, Google с их объемами трафика очень удобно рассказывать про A/B тесты, они могут там хоть цвет заголовков проверять и достоверные данные вернутся за день.

На малых выборках (скажем, большинство российских b2b-сайтов работают с малым количеством конверсий) результаты A/B тестов получаются нечеткими, и часто нельзя наверняка сказать, где правда. Это чисто математическая проблема, которая усугубляется, если есть желание проверить какие-то нюансы. Всем, кроме крупных игроков рынка электронной коммерции и популярных сервисов, мы рекомендуем сравнивать только два радикально разных варианта дизайна (скажем, старый и новый). Проверять цвет заголовков на малом количестве трафика нет смысла, иначе получится та самая печальная ерунда, о которой пишет автор статьи.

Еще одна проблема — если у тебя 10 конверсий в месяц, а ты хочешь сделать проверку варианта на 100 конверсиях, ты будешь ждать 10 месяцев, пока накопится результат. За 10 месяцев рынок может измениться так, что исходные гипотезы потеряют актуальность. Т.е. в реальности получится что-то не то, но не потому, что данные плохие, а потому что сама реальность ушла вперед за время теста. В этих случаях интуиция маркетолога и юзабилити-интервью работают лучше, чем инструментальная проверка.

Статьи по теме
Как проводить A/B тестирование для описания приложений в AppStore и Google Play10 июня 2014, 13:24
На какие вопросы нужно ответить перед началом юзабилити-тестирования07 мая 2014, 14:39
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

Странное хитровплетение в статью оригинального кейса от основателя Appsumo. A/B тестирование позволило им серьезно увеличить показатели конверсии. Однако, в процессе этого самого A/B тестирования оказалось, что только 1 из 8 тестов показывали серьезные изменения (читай – 1 из 8 гипотез была верной). Далее идет ряд примеров проведения тестов по гипотезам, в успешности которых автор был уверен, но они себя не оправдали.

Итого - ни слова о том, что гипотеза во время тестов удачно подтвердилась, однако, в реальной жизни оказалась не такой хорошей.

Тем не менее, заголовок статьи Керри Баттерс убеждает нас в том, что сей пример удачно вписывается в статью под названием "Are Most Winning A/B Test Results Misleading?"... Где подвох?

1

Есть еще прикольный инструмент - A/A тест. Когда просто сравниваются результаты 2-х групп пользователей на одном и том же варианте дизайна. Т.е., получается, проверяется "кучность" результатов. Если они сильно отличаются без видимых причин - значит выборка, скорее всего, слишком мала для того, чтобы можно было довериться результатам. Об этом методе рассказал Илья Красинский.

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Татьяна Бочкарева

Есть мысли о тезисе номер два. Очень скоро грядет революция в области перевозок людей. Люди будут перемещаться на воздушном метро, стоимость строительства которого в 100! раз дешевле подземного, а скорость до 500 км/ч при цене строительства путевой структуры в $5 млн за 1 км. Причем перемещаться люди будут почти бесплатно, так же как мы сейчас бесплатно звоним через Скайп. Окупаемость будет за счет попутных грузов. Как вам такое - ездить на каждые выходные на свою дачу с Москвы до Анапы за 3 часа?
Уже сейчас можете увидеть этот транспорт в движении (он запущен 29 ноября 2016г). Поддерживайте этот проект воздушного метро (струнный транспорт). Ещё можно успеть стать инвестором данного проекта. Увидеть его в движении и подписаться на новости можно на сайте проекта: goo.gl/qlfD2z

«Через 50 лет стран не будет — останутся только города»: основные тезисы лекции Кьелла Нордстрема о будущем
0
조냐 박

Если я пользуюсь только этими бесплатными 15 ГБ, то мне не о чем волноваться?

Google предупредила российских пользователей о повышении цен с 2017 года из-за «налога на Google»
0
Amar Ak

500-200? И даже не принято? В какой развитой стране такое есть? Так проще всем онлайн магазинам перенестись в юрисдикцию Гонконга и торговать, никаких пошлин, никакого НДС, раб сила по 200usd/месяц... и цены будут хорошие, правда в россии будет еще меньше рабочих мест и налоговых сборов...

Власти России намерены снизить беспошлинный порог для ввоза интернет-посылок до 500 евро с середины 2018 года
0
Johnny Vorony

Мне очень стыдно, коллеги, но до этой статьи я не знал кто такая Алена Владимирская.

Алёна Владимирская и оператор Wi-Fi в московском метро запустили проект с бесплатными карьерными советами
0
Арчибальд

Конечно! Некоторые не опускаются до ножей и кредиток,а строят свои капиталы на пирамидах!

PewDiePie сохранил лидерство в рейтинге самых высокооплачиваемых YouTube-блогеров по версии Forbes
0
Показать еще