Предиктивная аналитика в performance-маркетинге: почему, зачем и как

Всем привет!

Меня зовут Ольга, я исполнительный директор в агентстве DV Group, сегодня я расскажу, как и зачем использовать предиктивную аналитику.

Как было бы прекрасно, если бы мы заранее знали, что наступит пандемия. Компании бы спокойно перевели сотрудников на удаленку и оптимизировали бизнес под онлайн-формат. Да, конечно, непросто сделать прогноз на такое событие. Что касается бизнеса, то прогнозирование сегодня — залог успеха компании, но как сделать прогноз максимально точным? Здесь на помощь приходит предиктивная аналитика.

Итак, предиктивная аналитика — это когда мы пытаемся предсказать будущее, используя научные методы и дисциплины: теорию игр, статистику, машинное обучение. Сфера применения подхода широка: начиная от логистики и банковского дела, заканчивая маркетингом.

Представим, что нам нужно узнать, с какой вероятностью человек совершит покупку — но как это сделать, ведь мы же не знаем его вкусов и нужд. Нам и не обязательно это знать, достаточно использовать статические и аналитические методы, с помощью которых можно найти закономерности в исторических данных и предугадать дальнейшие действия пользователя.

В этой статье я расскажу, как и зачем мы применяем предиктивную аналитику в performance-агентстве DV Group: как рассчитываем вероятность совершения покупки определенной категории или бренда в онлайн-магазинах, а также, как формируем сегменты, на основе полученных данных, для дальнейшей закупки трафика.

Практическое применение предиктивной аналитики — в оптимальном использовании маркетингового бюджета при проведении performance-кампаний. Обычно для расширения первого этапа воронки продаж, закупка трафика происходит на основе пользовательских интересов, но если они получены не на основе анализа потребительской корзины, то это может привести к отрицательному ROI и высокому CPO. Поэтому мы и используем «продвинутую» сегментацию, для дифференцирования ставок в рекламном кабинете в зависимости от ценности пользователя.

Чтобы проиллюстрировать наш подход, разобьем его на несколько частей:

1. Источники данных и для каких типов товаров они подойдут.

В качестве источника данных мы используем данные чеков и cookies интернет-магазинов. Если первый тип источника — данные ОФД достаточно распространены на рынке и имеют обширное покрытие, то данные cookies получить намного сложней из-за закрытости инфраструктур электронной коммерции в России.

Во-первых, важно отметить, что данные чеков можно использовать в математических моделях только для товаров повседневного спроса и высокой периодичности, например: товары для красоты и уходу за собой, уборки дома, детские товары, продукты питания и другие. Для товаров с длинным жизненным циклом подойдут только данные cookies, которые показывают действия пользователя до совершения покупки на сайте.

Во-вторых, для получения корректного прогноза важна давность и объем обрабатываемых данных. При использовании чеков — это набор данных не менее, чем за один год при условии, что количество транзакций не менее трех тысяч штук. При использовании cookies — не менее трех месяцев и количество транзакций от десяти тысяч событий.

В-третьих, формат получаемых данных. Например, для чеков мы используем только сырые исходные данные без категоризации, которая происходит на стороне ОФД на основе ключевых запросов. Из-за этого получается высокая степень погрешности при формировании сегментов. Чтобы минимизировать погрешность, мы производим категоризацию каждого SKU на основе фасетной классификации ритейлера, что практически исключает ошибки атрибуции товара к определенной категории.

Сам процесс моделирования делится на несколько частей:

Для построения основной модели мы используем два подхода:

1. Решение регрессионной задачи с помощью нейронной сети на основе LSTM.

Рекуррентные нейронные сети (РНС) — сети, учитывающие предшествующую информацию. LSTM (long short-term memory) — тип рекуррентной нейронной сети, способный обучаться долгосрочной зависимости. Их специализация — запоминание информации в течение длительных периодов времени. Все рекуррентные нейронные сети имеют форму цепочки повторяющихся модулей нейронной сети. В стандартных РНС этот повторяющийся модуль имеет простую структуру, а модуль LSTM состоит из четырех взаимодействующих слоев. Благодаря этому не происходит разрыва связи между информацией, что позволяет нам определить вероятность совершения покупки пользователем в течение 21 дня.

Для чего это нужно: предположим, что вам нужно купить шампунь для волос, вам удобнее всего сделать это в интернет-магазине. Вы заходите в онлайн-магазин и начинаете поиски: вбиваете в строке поиска «шампунь», проваливаетесь в категорию «уход за волосами», сортируете товары по рейтингу и смотрите карточки товаров, читаете отзывы, характеристики продукта и, в итоге, совершаете покупку. На выбор шампуня вы потратили, скажем, две минуты. Магия в том, что две минуты потратили не только вы, но и большинство пользователей, которые покупали шампунь. А дальше с помощью математических моделей можно предсказать вероятность совершения покупки пользователя и даже повторного приобретения товара.

2. Латентный анализ с помощью факторизации матриц.

Латентный анализ (Latent semantic analysis) — метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, которые в них встречаются. С помощью анализа можно выявить характерные факторы, присущие всем документам и терминам. Иными словами, данный подход позволяет заполнить «пробелы» в ячейках в новом объекте на основе исторических значений. По итогу применения данных моделей, мы анализируем вероятность события.

3. Используемые скриптовые языки.

Все наши модели написаны на Python, обработка данных происходит внутри контура собственной DMP платформы, с дальнейшей отгрузкой сегментов в рекламные кабинеты по API. В ближайшем будущем мы планируем переход на CDP платформу, которая позволит объединить все процессы в одном месте.

Давайте на конкретном примере рассмотрим, как работает предиктивная аналитика. Проект под NDA, поэтому мы не используем название бренда.

Перед нами стояла задача увеличить продажи подгузников на основных маркетплейсах: Vprok, Утконос и Ozon за счет привлечения новой аудитории молодых мам с детьми до 2 лет. Особое внимание необходимо было уделить аудитории беременных женщин, начиная с 7 месяца беременности, и мам с детьми до 6 месяцев, так как именно в этот период формируется потребительское предпочтение на оставшийся срок потребления. Для формирования сегментов мы разбили исходные данные на несколько частей:

Сегмент 1: Текущие покупатели подгузников и трусиков размера NB,S,M.

Сегмент 2: Текущие покупатели размера L.

Сегмент 3: Текущие покупатели XL.

Сегмент 4: Текущие покупатели товаров для беременных (по всем SKU, попадающим в фасетную выгрузку данной категории в онлайн-ритейлерах).

На основе получившихся выборок данных и тестирования гипотез были использованы следующие стратегии:

Использование сегментов без дополнительных фильтров и обработок, т.е. текущие покупатели подгузников и товаров для беременных.
Построение Look-alike на описанные выше сегменты.
Построение Look-alike на пользователей из данных сегментов, которые с наибольшей вероятностью приобретут товар в течение 21 дня.

При этом, важно отметить, выбранные стратегии были использованы внутри каждого из сегментов. Это было необходимо нам для дальнейшего дифференцирования ставок в рекламных кабинетах, т.к. CPO для нового клиента из сегмента 1 и 4 может быть в три раза выше показателей в сегментах 2 и 3. Мы размещали рекламу на Facebook, Mytarget и Яндекс (РСЯ). Средний ROI при использовании стратегии с предиктивным моделирование составил 7,5 при том, что сегменты текущих покупателей без дополнительной обработки отработали с показателем ROI= 2,1.

Конечно же при выборе стратегии необходимо учитывать и емкость полученных сегментов, которая снижается из-за дополнительных фильтров, поэтому мы рекомендуем использовать комбинированную схему работы с использованием нескольких гипотез одновременно для достижения оптимального ROI.

Мы используем предиктивное моделирование, чтобы разделить пользователей на точные сегменты, в итоге, наши клиенты получают возможность увеличить продажи брендов на маркетплейсах и в собственных интернет-магазинах. Можно собрать сегмент не просто потенциальных покупателей магазина, категории или бренда, но и пользователей, которые купят с наибольшей вероятностью конкретный продукт, а еще найти похожих на них в интернет-пространстве, таким образом, расширив на входе воронку продаж.

Предиктивная аналитика в performance-маркетинге: почему, зачем и как

Источники данных: чеки и cookies

Процесс моделирования

Как мы использовали предиктивную аналитику при запуске рекламной кампании для подгузников