[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "create", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-158433683", "adfox_url": "//ads.adfox.ru/228129/getCode?p1=bxbwd&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid21=&puid22=&puid31=&fmt=1&pr=" } } ]
{ "author_name": "Alexander Lashkov", "author_type": "self", "tags": ["\u0438\u043d\u0442\u0435\u0440\u0444\u0435\u0439\u0441\u044b","\u0434\u0438\u0437\u0430\u0439\u043d","\u0441\u0442\u0430\u0442\u0438\u0441\u0442\u0438\u043a\u0430","\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435_\u0433\u0438\u043f\u043e\u0442\u0435\u0437","\u044e\u0437\u0430\u0431\u0438\u043b\u0438\u0442\u0438_\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435","a_b_\u0442\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435"], "comments": 8, "likes": 16, "favorites": 1, "is_advertisement": false, "section_name": "default", "id": "4092" }
Alexander Lashkov
7 865

Почему результаты удачных A/B тестов в реальности не так хороши

В новом выпуске рубрике «Интерфейсы» статья специалиста издания SitePoint Керри Баттерс о том, почему A/B тесты в реальном мире могут показывать худшие результаты, чем во время экспериментов, и как этого избежать.

В январе 2014 года Мартин Гудсон из аналитической компании Qubit, опубликовал отчет под названием «Результаты большинства удачных A/B тестов вводят в заблуждение». Керри Баттерс решила проанализировать ситуацию и понять, так ли это на самом деле.

Что такое A/B тестирование

В мире UX и юзабилити обычно под A/B тестами понимают сравнение разных версий веб-страницы с целью выяснения, какая из них показывает лучшие результаты. В ходе теста двум группам людей показывают разные версии страниц, а под результатами обычно подразумевают то, насколько хорошо им удастся взаимодействовать с интерфейсом сайта.

Например, можно провести тестирование страницы с призывом к действию (CTA), разместив его в разных местах или использовав для его оформления другой шрифт, цвет и описание.

A/B тестами проверяются и другие аспекты веб-страниц:

  • заголовки и описания продуктов;
  • формы;
  • оформление страниц;
  • изображения;
  • текст (короткий или длинный);
  • кнопки.

Мартин Гудсон из Qubit утверждает, что результаты, полученные с помощью таких тестов, чаще всего оказываются ложными и ожидаемые улучшения (например, увеличение конверсий) никогда не происходит.

Ошибки при проведении A/B тестов

Прежде всего, для проведения теста, который покажет правдивые результаты, необходимо наличие значительной выборки (т.е. числа людей, участвующих в эксперименте) — статистическая точность растет с её увеличением.

К сожалению, не каждый сайт может похвастаться большим трафиком, поэтому добиться большой выборки удается далеко не всегда. Но и проведение теста при участии малого числа людей с большой вероятностью приведет к получению результатов, которые окажутся неприменимы на практике.

Второй важный аспект A/B тестирования — это длительность проведения эксперимента. Очень часто возникает соблазн прекратить тест, когда достигнут положительный результат, но это уменьшает статистическую точность эксперимента. Если тест проводился на протяжении короткого времени, то вероятность получения ложных результатов очень велика, и вместо ожидаемых улучшений, все может стать только хуже. 

Одновременный запуск множества тестов

Еще одна распространенная ошибка заключается в запуске большого количества тестов. Керри Баттерс уверена, что это плохая идея по той причине, что при проведении 20 тестов, в среднем, только один из них покажет положительный результатат, при 40 тестах, число удачных исходов, в среднем, не превысит двух — вероятность удачного исхода теста составляет лишь 5%.

Компания AppSumo проводила тестирование вариантов оформления письма своей email-рассылки. Только 1 из 8 экспериментов показал приемлемое изменение результатов в лучшую сторону. 

У AppSumo примерно 5000 посетителей в день, поэтому при проведении тестов выборка была не такой большой. Представителям компании удавалось добиваться хороших показаталей (увеличение числа собранных почтовых аккаунтов для рассылки, удвоение числа заказов), но жизнь внесла свои коррективы. 

Протестированные гипотезы, которые должны были привести к хорошим результатам, полностью провалились. Тому есть несколько причин:

  • пользователи не хотят читать текст;
  • в призыве к действию содержались непонятные проценты, вместо понятных долларов;
  • всплывающие и мигающие окна раздражали посетителей сайта.

Для того, чтобы добиться конверсии при наличии вышеописанных минусов бренд должен быть очень известным и уважаемым.

На картинке ниже представлен результат тестирования (негативный) гипотезы, которая состояла в том, что предложение скидки простимулирует пользователей подписаться на рассылку. 

В реальности, такой баннер привел лишь к ухудшению конверсии на целевой странице — число людей, оставляющих свои email-адреса, снизилось.

Керри Баттерс говорит, что email-адрес для многих пользователей все еще является довольно важной вещью, которой не так просто поделиться. Именно поэтому стимул для того, чтобы куда его ввести, должен быть значительным — абстрактные проценты здесь не подходят, лучше четко написать выгоду «в деньгах».

Как правильно проводить A/B тесты

Перед проведением теста Баттерс советует уделить время планированию эксперимента и определению того, как именно должны достигаться положительные результаты (например, увеличение конверсий). По мнению специалиста SitePoint, нужно также определиться и со средством анализа результатов — подобный сервис есть у Google.

Для того, чтобы получить статистически достоверные результаты нужно подождать, пока тест продлится какое-то время, и не прекращать его по достижению желаемых показателей. Баттерс считает подходящей длительностью теста несколько недель или даже месяцев.

Кроме того она рекомендует:

  • тестировать не более одной страницы (или элемента на странице) за раз;
  • выбирать для тестирования страницы с высоким показателем отказов;
  • не ожидать статистически достоверных результатов до достижения отметки в 1000 пользователей, участвовавших в эксперименте;
  • помнить о наличии кривой обучаемости для A/B тестов;
  • предварительно изучать клиентов и посетителей сайта;
  • быть терпеливым и не удивляться неудаче.

Баттерс убеждена, что проведение A/B теста, который приведет к улучшению результатов не только во время эксперимента, но и в реальной жизни, невозможно без предварительного анализа аудитории бизнеса. Очень трудно дать людям то, что они хотят, не имея представления об их потребностях.

Заключение

Автор исследования Qubit Мартин Гудсон говорит, что после проведения теста стоит его повторять, чтобы перепроверить результаты. Кроме того, он заявляет о том, что ожидания улучшений от реализации протестрованной гипотезы, всегда превышают реальные результаты, которые она может дать — это особенно актуально для тестов с небольшим числом участвовавших в них людей.

По мнению Керри Баттерс, A/B тесты — это полезный инструмент, который может приносить хорошие результаты при правильном использовании. Кроме того, его особенность заключается в том, что даже если все сделать правильно, можно не добиться положительного исхода — к этому также нужно быть готовым. Однако предварительная подготовка и анализ, правильная постановка целей и органзаци процесса тестирования, значительно повышают шансы на успех.

Редакция ЦП поинтересовалась у отечественных профессионалов, проводят ли они A/B тесты, и какие метода повышения точности результатов используют:

Андрей Зайцевменеджер по продукту Aviasales.ru
A/B тестирование – это очень мощный и эффективный инструмент, но он требует знаний и соблюдения определённых правил.

Если ими пренебрегать, то вы получите и правильные данные, а следовательно сделаете неправильные выводы и примете неправильные решения, в конце концов потеряете деньги.

К описанным в статье выше постулатам хочу добавить 3 немаловажных нюанса, которые зачастую искажают представление о результатах тестов у начинающих маркетологов и продуктологов:

Первое – это понимание закономерностей и математической статистики в целом. Не всегда большое количество трафика — это хорошо. Как правило, динамика изменения основных показателей сводится к построению sin/cos графика, и зачастую при одних цифрах показатели могут сближаться на определённых экстремумах, а при других сильно расходиться в значениях. То же самое можно спроецировать и на время проведения тестов (если время является для вас основным критерием). Также при моделировании такого анализа не стоит забывать о возможных статистических погрешностях (для более глубокого погружения в данную тему рекомендую ознакомиться с книгой «Прикладная математическая статистика», Кобзарь А.И.).

Еще один момент — очень важно выделять для проведения тестирования приоритетную группу трафика. Пользователи, пришедшие из различных каналов, а также новые пользователи и постоянные, как правило, имеют совершенно различные поведенческие паттерны и могут совершенно по-разному реагировать на изменения, взаимодействовать с сервисом или продуктом. Очень важно изначально определить правильные ключевые каналы и группы тестируемых пользователей. (Для более глубокого погружения в данную тему рекомендую ознакомиться с книгой «Повышение эффективности интернет-рекламы. Оптимизация целевых страниц для улучшения конверсии», Т.Эш).

И последний немаловажный нюанс, про который не стоит забывать, это временные условия. Согласитесь, что качество и количество трафика достаточно сильно отличается в субботу ночью и в 12 часов дня в понедельник. В идеале имеет смысл рассматривать все временные условия жизнедеятельности сервиса при проведении тестирования или же хотя бы ориентироваться на максимально приближенные к благоприятным продуктивным условиям.

Помните, чем больше различных факторов закономерностей и условий вы учтёте при начальном моделировании и планировании тестов, тем более точные и качественные данные вы сможете получить, а, следовательно, сделать правильные выводы.

Иннокентий Нестеренкоруководитель агентства Topright.ru

Статья очень разумная. И дело даже не столько в том, что происходит в реальности, а в том, что большинство маркетологов романтически относится к A/B тестам как к четкому методу, не понимая его ограничений. Гуманитарию (сужу по себе) сложно понять, что A/B тест возвращает не число, а диапазон значений вокруг числа, и чем меньше конверсий, тем шире диапазон, и тем хуже данные (см. справку про стандартное отклонение). Кроме того, чем больше вариаций участвует в тесте, тем медленней копится информация.

Да, конечно, Google с их объемами трафика очень удобно рассказывать про A/B тесты, они могут там хоть цвет заголовков проверять и достоверные данные вернутся за день.

На малых выборках (скажем, большинство российских b2b-сайтов работают с малым количеством конверсий) результаты A/B тестов получаются нечеткими, и часто нельзя наверняка сказать, где правда. Это чисто математическая проблема, которая усугубляется, если есть желание проверить какие-то нюансы. Всем, кроме крупных игроков рынка электронной коммерции и популярных сервисов, мы рекомендуем сравнивать только два радикально разных варианта дизайна (скажем, старый и новый). Проверять цвет заголовков на малом количестве трафика нет смысла, иначе получится та самая печальная ерунда, о которой пишет автор статьи.

Еще одна проблема — если у тебя 10 конверсий в месяц, а ты хочешь сделать проверку варианта на 100 конверсиях, ты будешь ждать 10 месяцев, пока накопится результат. За 10 месяцев рынок может измениться так, что исходные гипотезы потеряют актуальность. Т.е. в реальности получится что-то не то, но не потому, что данные плохие, а потому что сама реальность ушла вперед за время теста. В этих случаях интуиция маркетолога и юзабилити-интервью работают лучше, чем инструментальная проверка.

#Интерфейсы #статистика #тестирование_гипотез #Юзабилити_тестирование #интерфейсы #a_b_тестирование

Статьи по теме
Как проводить A/B тестирование для описания приложений в AppStore и Google Play
На какие вопросы нужно ответить перед началом юзабилити-тестирования
Популярные материалы
Показать еще
{ "is_needs_advanced_access": false }

Комментарии Комм.

0 новых

Популярные

По порядку

Прямой эфир

Голосовой помощник выкупил
компанию-создателя
Подписаться на push-уведомления