Как оценить эффективность рекламы, когда аналитика больше не работает

Кросс-девайс, кросс-браузер, режим «инкогнито» и ITP уничтожили возможность точного отслеживания пользователей. Попытки «склеить» сложный путь клиента к покупке между разными сессиями становятся все более тщетными.

Можно ли решить эту проблему, или же маркетинговая аналитика больше невозможна? К счастью, не все еще потеряно...

Компания Urchin, которую позже купила Google, изобрела потрясающий способ оценки эффективности рекламных кампаний с помощью модели атрибуции «last non-direct click» и использования first-party cookies. Решение было идеальным для того времени:

Люди использовали в основном одно устройство;
Смартфоны были большой редкостью;
Рекламодатели избегали продвижения на мобильных устройствах, потому что пользовательский опыт на них в то время был ужасным;

В большинстве случаев предположение, что пользователи совершали конверсию в том же браузере и на том же устройстве, на котором было их первое посещение сайта, было вполне справедливым.

Современный путь к покупке более сложен: контекстная реклама, медийная реклама, социальные сети, партнерский маркетинг, ретаргетинг, триггерные емэйлы, таргетированные промо.

Как оценить эффективность рекламы, когда аналитика больше не работает

Одноканальные модели атрибуции уже давно перестали отражать реальность, но маркетологи упорно продолжают принимать решения на основе этих устаревших методов.

В то же время, решения для мультиканальной атрибуции вдребезги разбиваются о проблему кросс-платформенности, in-app браузеров, режима «инкогнито», ITP, GDPR и т.д. И таких проблем и ограничений с каждым годом становится все больше и больше. В то же время, машинное обучение имеет серьезный потенциал и способно полностью изменить подход к атрибуции, разом решив все эти проблемы.

Кросс-девайс, кросс-браузер, режим «инкогнито» и ITP уничтожили возможность точного отслеживания пользователей.

Попытки «склеить» сложный путь клиента к покупке между разными сессиями становятся все более тщетными.

После того как в 2007 году появился iPhone и получил массовое распространение, аналитика изменилась навсегда. Единственным способом точно «склеить» пользователей между разными девайсами стала авторизация на сайте. Но многих ли получится заставить авторизироваться? Да еще и на всех девайсах. Особенно если вы не Facebook и не Google.

Сегодня очень часто пользователи начинает свой конверсионный путь с мобильного телефона, но в конечном итоге совершает покупку на десктопе. Таким образом, вклад мобильного сеанса недооценивается, а сеанс на десктопе, наоборот, сильно переоценивается и получает 100% конверсии, даже если вы используете мультиканальную атрибуцию.

Наиболее популярные мобильные приложения, такие как Twitter, Facebook, Linkedin, Instagram, Youtube и т.д., используют свои собственные in-app браузеры. Каждый раз, когда пользователь кликает на рекламу в таких приложениях, открывается in-app браузер этого приложения со своими уникальным cookies.

В большинстве случаев люди не остаются в этом браузере и в конечном счете переходят в свой любимый мобильный браузер (в примере выше, Safari). Таким образом, даже в рамках одного устройства такое «кросс-браузерное» взаимодействие полностью рушит всю маркетинговую аналитику.

Результатом является большое количество прямого трафика в вашем Google Analytics и полное отсутствие понимания, откуда он взялся. В то же время, другие каналы, которые были настоящим источником этого трафика, кажутся нам (ошибочно) не очень то и неэффективными.

То же самое происходит при использовании AMP-страниц, если вы не использууете технологию «Signed HTTP Exchange» (Большинство маркетологов даже не знают об этой технологии. Вы можете исключить себя из их числа прочитав документацию тут).

Как B2B-бизнес, мы в SegmentStream долго боролись с этой проблемой. Мобильный трафик всегда выглядел менее конверсионным (и менее ценным), чем десктопный трафик. Тем не менее, многие исследования показывают, что путь большинства клиентов начинается именно с мобильного устройства.

Даже если в глубине души вы уверены, что мобильный трафик является мощным драйвером новых посетителей и потенциальных покупателей, — вам будет очень сложно убедить других выделить на него бюджет, если у вас нет данных, чтобы подкрепить свои убеждения.

Но не стоит забывать и про режим «инкогнито».

После нашумевшего анонса GDPR в 2016 году, пользователи стали куда более осознанно относиться к тому, кто и как за ними «следит» в интернете. Интерес к режиму «инкогнито», VPN и анонимным браузерам, таким как Tor или Brave, перестал быть особенностью узкого круга хакеров и стал стандартом для простого пользователя.

С другой стороны, технологические компании, такие как Apple, вводят все больше ограничений на отслеживание поведения пользователей. Хорошим примером является запуск ITP 2.1 в феврале 2019 года, который усложнил отслеживание даже тех пользователей, которые сами даже не задумывались о приватности. Причем это серьезно ударило как по отслеживанию между разными доменами, так и в рамках одного домена.

Все проблемы, описанные выше, дают четкое понимание, что использование только ретраспективного (детерминистического) подхода в атрибуции больше не будет работать. Атрибуция должна быть усилена предитивным (вероятностным) подходом, чтобы решить описанные выше проблемы трекинга.

Основная проблема ретроспективной атрибуции заключается в том, что необходимо точное «склеивание» итоговой конверсии пользователя с первоначальным источникам трафика. Если пользователь не авторизован и конверсия происходит на другом устройстве или в другом браузере, то вся концепция такого подхода рушится. А ведь именно на ней основны абсолютно все модели атрибуции.

Но что если бы мы могли использовать предсказанные конверсии вместо реальных конверсий? Что если бы мы могли использовать ценность самой сессии вместо ценности финальной конверсии для оценки маркетинговых каналов?

Наш опыт и опыт многих наших клиентов показывает, что даже для сайтов с трафиком менее 100,000 посетителей можно построить очень точную модель машинного обучения, которая способна предсказывать будущие конверсии на основе поведения пользователя на сайте с точностью до 95%! Это открывает совершенно новых подход к актрибуции:

Атрибуцию, которая смотрит в будущее, вместо того, чтобы смотреть в прошлое.

Далее я подробно опишу, как можно применять этот подход уже сегодня для решения проблемы кросс-девайса и кросс-бразерности в маркетинговой аналитике.

Это именно то, что делает наш продукт SegmentStream. О том, как работает сам алгоритм я уже детально описывал в своей предыдущей статье:

vc.ru

Решаем проблему атрибуции в digital-маркетинге при помощи машинного обучения — Маркетинг на vc.ru

Кроме того, совсем недавно появилось видео с конференции «Матемаркетинг 2019», где я впервые презентовал этот инновационный подход (очень советую посмотреть перед тем, как читать дальше):

В общих чертах процесс выглядит следующим образом:

Майнинг фич: сбор поведенческих событий и микро-конверсий, а также прочих контекстных данных, таких как тип устройства, тип браузера, регион, и т.д.
Обучение ML-модели: в моей предыдущей статье я приводил пример кода, который позволяет построить модель, предсказывающую вероятностью купить для каждого посетителя сайта.
Построение модели атрибуции: определение ценности каждой сессии в зависимости от того, насколько изменилась вероятность купить у каждого конкретного пользователя во время этой сессии.

Когда у вас есть рабочая модель, вы можете выбрать ту пропорцию между ретроспективным и предтиктивным подходами, которую считаете необходимой.

Для простоты, давайте сравним ретроспективный (детерминистический) и предиктивный подходы к атрибуции на следующем примере:

Новый пользователь кликает на рекламу в поиске Google и открывает мобильную версию интернет-магазина одежды;
Этот пользователь просмотривает несколько страниц, проверяет размеры товара в наличии, кликает на несколько фотографий товара и добавляет несколько ссылок на понравившиеся товары в свои заметки на iPhone.
Дома пользователь снова открывает сайт уже на десктопе, кликнув на ссылки из заметок, которые синхронизироывались с его Macbook.
В конце концов, пользователь совершает покупку на сумму $500.

Мы прогоним этот пример через три подхода к моделиварованию атрибуции: ретроспективный, гибридный и полностью предиктивный.

Не важно, используете ли вы одноканальную модель «last non-direct click», многоканальную data-driven модель или модель «на основе воронки» — результат будет одним и тем же. Первоначальный канал получит нулевой вклад в конверсию; вся ценность будет атрибуцирована последнему касанию (в нашем примере — прямому переходу на сайт):

Это происходит потому, что ваша аналитическая система технически не может соединить первоначальный визит на мобильном устройстве, инициированный платной рекламой в Google, и последующий прямой визит на сайт (на другом устройстве, в другом браузере, и т.д.).

Добавление предиктивного подхода к традиционной модели улучшает атрибуцию. Представьте, что вы использовали тысячи пользовательских сеансов для обучения своей модели, предсказывающей вероятности покупки в последующие 7 дней после визита на основе поведения пользователя и других контекстных атрибутов.

ML-модель, точно обученная на тысячах различных путей клиента к покупке, может эффективно предсказать вероятность покупки в следующие 7 дней (а в том числе и доход от этой покупки). Модель точна, потому что она обучена на полных путях пользователя к покупке, на базе которых затем можно предсказывать значения и для «разорванных» путей:

Полые пути к конверсии. Ценные сеансы, завершающиеся конверсией.
Прерванные пути к конверсии. Ценные сеансы, которые не завершились конверсией из-за кросс-платформенного поведения, приватного браузинга или других проблем с трекингом.
Завершающие пути к конверсии. «Магические» сеансы «(direct)/(none)», которые заканчиваются конверсией, потому что пользователь уже взаимодействовал с веб-сайтом с другого устройства или в другом браузере.

Таким образом, во время первого сеанса, инициированного кликом по объявлению Google, модель предскажет ненулевое значение возможного будущего дохода, даже если пользователь не совершит конверсию сразу.

Предположим, что модель предскажет, что вероятность конверсии пользователя составляет 37,5%, а прогнозируемый доход от этого сеанса составляет $300.

Во время следующего сеанса пользователь возвращается на сайт прямым заходом и совершает покупку. Вместо прогнозируемых конверсий и дохода мы видим фактическую конверсию и доход в размере $500.

Общая ценность двух сеансов (прогнозируемая + фактическая) равна $800, что, конечно, больше, чем реальные деньги, полученные интернет-магазином на свой банковский счет. Но это решается последним шагом — нормализацией:

Ценность, атрибутированная источнику «google/cpc» = $300/($300+$500) = $300/$800 = 0.375 x $500 = $187.5
Ценность, атрибутированная источнику «(direct)/(none)» = $500/($300+$500) = $500/$800 = 0.625 x $500 = $312.5

На первый взгляд это выглядит как гораздо более достоверное распределение стоимости — если, конечно, у вас есть точная модель.

Лично я считаю такой подход наиболее прогрессивным и точным. Он может сделать ваши решения по моделированию маркетингового микса более правильными и значительного улучшить общий ROAS от ваших вложений в рекламу.

Однако, такой подход может кого-то и обеспокоить. Люди психологически привязываются к тому, к чему они привыкли и что они понимают. И порой бывает сложно поверить, что даже если модель машинного обучения имеет точность всего в 76%, она может быть куда более точной в рамках предсказания реальной жизни, чем модель атрибуции «last non-direct click».

Неудивительно, что такой подход просто «взрывает мозг» финансовым директорам. В этом подходе аналитик-маркетолог вообще не смотрит на фактические конверсии (разве что когда идет непосредственное обучение ML-модели), работая только с прогнозируемыми конверсиями и доходами.

Другими словами, вы принимаете во внимание «ценность» самого сеанса, а не конверсию. Ваш финансовый директор по-прежнему может анализировать ретроспективные данные, но это не имеет ничего общего с решениями по построению маркетингового микса.

Как и в предыдущем подходе, вы обучаете модель предсказанию вероятности покупки в последующие 7 дней после визита на основе поведения пользователя и контекстных атрибутах. Но, в отличие от предыдущего подхода, ваш отчет об эффективноси каналов и кампаний учитывает только прогнозируемые конверсии.

Вернемся к нашему первоначальному примеру.

Представьте, что для первой сессии модель предсказала вероятность покупки 37,5% с доходом $300. Для второй сессии — несмотря на произошедшую конверсию — модель предсказывала вероятность покупки 25% с доходом $125.

Мы видим, что в этом случае «google/cpc» имеет гораздо больший вклад по сравнению с «(direct)/(none)». Чтобы совсем не свести с ума своего финансового директора, вы можете нормализовать значения чтобы они соответствовали фактическому доходу в $500:

Нормализованная стоимость сеанса 1 = ($500 / ($300 + $125)) * $300 = $352.94
Нормализованная стоимость сеанса 2 = ($500 / ($300 + $125)) * $125 = $147.06

Таким образом, вы можете анализировать каналы и кампании с помощью машинного обучения, несмотря на невозможность точного «склеивания» пользователей между разными устройствами. Мы уже делаем это для многих наших клиентов и после 2–3 месяцев тестирования добились увеличения ROAS на 10–30%.

Использовать ли вы предиктивный подход к атрибуции как основной метод оценки рекламных кампаний, или же как метод дополнительной валидации — решать вам. Но важно помнить, что на текущий момент это один из немногих способов, который может показать истинную ценность некоторых кампаний и каналов верхней части воронки, для котрых определить ее ранее было просто невозможно.

49 комментариев

Yuri Gavrilov

27.10.2020

Константин, спасибо за статью.
Осталось непонятным, откуда возьмутся первоначальные "полные цепочки" для обучения модели.
Как вы оцените вероятность конверсии человека, чья цепочка потом рвётся?

Это же может совершенно систематически происходить: у вас есть какие-то действия внутри инстаграммового инапп-браузера, которые никогда не продолжаются в других сеансах (так что вы замеряете на них очень мало конверсий). Почему вдруг модель насчитает пользователям в нём существенную дополнительную вероятность конверсии?

Ответить

Mr. K

Автор

Привет. Дело в том, что обучение идет на всем трафике, а не только на инстраграмных in-app сессиях. Поэтому, модель легко может опредлить конвертирующе паттерны, которые свойственны пользователям с большой вовлеченностью и применить их к трафику с "разорванным" путем к покупке.

Михаил И.

Звучит круто, но есть два вопроса:

1) Не решает ли новый GA 4 поставленные проблемы (они же анонсировали и кросс-платформенное отслеживание и предективность покупки (Propensity & Churn Audience)?

2) Хотелось бы вcе же получить ответ на вопрос @Yuri Gavrilov, от которого автор почему-то уклоняется ;) (как строится обучающая выборка, если цепочки по факту разорваны и в самой выборке?).

1) Не знаю. Никаких технических предпосылок для этого нет.

2) Я уже ответил на этот вопрос. Но могу также скопировать более детальный ответ в из моей оригинальной статьи на cxl.com:

But what happens as full journey data continues to dry up?

If deterministic stitching is hard and—based on more devices, more browsers, and more privacy restrictions—only getting harder, will that undermine the quality of future models?

As long as some portion of people still purchase during a single journey (i.e. “full journeys”), you’ll have required data to learn. But with only interrupted journeys, it could still work. Imagine that with only interrupted journeys, 100% of conversions (based on last interaction) are (direct)/(none).

You can still recognize patterns of users who engage and tend to buy. A subset of direct users will share features (i.e. events) with users who come from Facebook. The model doesn’t know where people came from; you show only behavior for on-site and contextual events.

So the model sees that a user from a Facebook in-app browser behaves like users who tend to buy (trained on direct traffic). And it will allocate non-zero values to such sessions.

cxl.com

How Machine Learning Can Finally Solve “(direct)/(none)" CXL

По поводу GA 4 - вы как-то быстро, на мой взгляд, отмахнулись... Огромная корпорация, однозначный лидер рынка заявляет о революции, а вы "да ну, вряд ли, не вижу предпосылок". Как минимум тут стоит разобрать их клеймы и обсудить. А в идеале - потестить... Ну это я так...

И А

Да, кроссплатформенность превратила аналитику в ад...
Все описанное автором, как я понимаю, это типизация условно "полных" мультиканальных пользовательских сессий и создание на этой основе N-количества шаблонов-предикатов. По сути, нам предлагается поверить в то, что некоторая последовательность взаимодействий с сайтом приведет к неким действиям (конверсии ?) с вероятностью в Х %.
В связи с этим один простой вопрос - а пруфы реальной работы технологии можно увидеть?

Darya

28.10.2020

Присоединяюсь к вопросу

Как оценить эффективность рекламы, когда аналитика больше не работает

Более широчкий взгляд на кросс-браузерность

Режим «инкогнито»

Сможет ли машинное обучение спасти аналитику

Предиктивная атрибуция на основе поведения пользователей на сайте

Выбор между ретроспективной, гибридной и полностью предиктивной моделью

Ретроспективный подход

Гибридный подход

Полностью предиктивный подход

Заключение