Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

Одной из хронических проблем в сфере онлайн-рекламы и маркетинга является то, что большинство решений о проводимых мероприятиях по продвижению специалисты принимают, основываясь на личном опыте, стандартных правилах и гипотетических предположениях. На грамотную и глубокую аналитику часто не хватает средств, времени и, что печальнее, компетенций. Кроме того, должная обработка огромного количества информации, например, о посетителях сайта, также вызывает большие трудности.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

В частности, сложности начинают возникать на критически важном этапе определения портрета целевого пользователя. Так маркетологи, пытаясь сэкономить время, зачастую субъективно определяют портрет целевой аудитории и в дальнейшем малодоказательно подбирают под него якобы подходящие сегменты. Например, может возникнуть такая ситуация: приходит клиент, продающий кирпичи. Специалист, которому требуется определить целевую аудиторию для данного товара на основе своего опыта предположит, что кирпичи захотят купить те, кто интересуется строительством или хочет что-то отремонтировать. Но данный подход приводит к тому, что могут быть упущены неочевидные аудитории, которые по поведенческим характеристикам на сайте не уступают вышеописанным и тоже бы купили кирпичи. Как итог, бюджет распределяется нерационально, деньги расходуются, лиды привлекаются с переменным успехом.

Проблема решается, если принимать решения на основе собранной статистики. А для того, чтобы корректно ее проанализировать, вначале необходимо грамотно все структурировать и распределить в более-менее однородные группы.

В качестве эксперимента мы решили нетривиальным способом определить портрет целевого пользователя для одного из наших клиентов, занимающегося реализацией дорогостоящего сезонного товара — отопительного оборудования. Для этого пришлось прибегнуть к высшей математике. А именно кластеризовать всех пользователей в зависимости от их интересов по таким показателям, как время, проведенное на сайте, отказность, аффинити-индекс, коэффициент конверсии и т.д. Мы предположили, что именно такой подход поможет нам обратить внимание на категории пользователей, по которым клиенту пока недостает имеющейся статистики, но их характеристики схожи с более объёмными категориями. Ведь методология кластеризации особенно полезна, так как позволяет разбить множество объектов так, чтобы похожие объекты попали в одно и то же подмножество, а объекты из разных подмножеств наглядно различались. За счет этого решается проблема группировки. В результате нам удастся сформировать портрет пользователя по совокупности желаемых характеристик.

В рамках подготовительных к анализу работ происходит сбор данных, которые будут отражать показатели в каждой категории интересов. На данном этапе каждый интерес представляет собой отдельный кластер. Основной для анализа стали данные из Яндекс.Метрики, а конкретнее из отчёта “Долгосрочные интересы”. Перед кластеризацией эти данные обрабатывались (например, проведенное на сайте время из минут переводилось в секунды, то есть все данные приводились к одному типу) нами самостоятельно.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

В качестве метода кластеризации нами была выбрана агломеративная кластеризация. Выбирая, мы руководствовались, в частности, тем, что данный алгоритм не предусматривает разбивку на фиксированное число кластеров, ведь для нас важно не какое-то определенное количество, а качество разбивки по интересующим характеристикам.

Агломеративная кластеризация является одним из методов иерархического кластерного анализа. Основная идея такого подхода заключается в том, что новые кластеры создаются путем объединения более мелких кластеров. Другими словами, дерево создается от листьев к стволу.

Первый этап. Кластеризация

1. Представляем каждую точку как отдельный кластер.

Точкой в данном случае является аудитория с определённым интересом и характеристики её поведения на сайте. Пример: категория интересов — финансы, отказность — Х, время на сайте — Х сек. и т.д.

2. Производим расчёт попарных расстояний между центрами кластеров.

Для этого рассчитываем расстояние для всех возможных комбинаций кластеров (например: 1 и 3, 1 и 4, 1 и 5 и т.д.). Под центром кластера на данном этапе понимается совокупность характеристик интересов каждой рассматриваемой аудитории. В качестве единицы измерения расстояний между объектами было выбрано Евклидово расстояние. Оно рассчитывается по следующей формуле:

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

Где d от X и Y это и есть расстояние между искомыми кластерами, а Xi и Yi это характеристики, определяющие поведение пользователей на сайте в рассматриваемых кластерах.

3. Осуществляем сортировку вычисленных попарных расстояний (из 2 пункта) от меньшего к большему.

4. По итогам сортировки выбираем пару ближайших кластеров и склеиваем в один, пересчитывая центр кластера. Под парой ближайших кластеров понимаются два кластера, расстояние между которыми минимально. Под склейкой кластеров понимается объединение этих кластеров в один, а новым центром кластера становятся средние значения характеристик только что объединенных кластеров.

Шаги с 2 по 4 повторяются до тех пор, пока все данные не склеятся в один кластер.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

Второй этап. Определение оптимального количество кластеров

После проведенной кластеризации встаёт задача определения оптимального количества кластеров. Данную задачу мы решили с помощью так называемого “Метода локтя”. Метод локтя заключается в выборе такого количество кластеров, чтобы последующие шаги не вредили точности разбивки, коим, например, может выступать склеивание радикально непохожих по их определяющим характеристикам кластеров.

Успешно прокластеризировав данные и определив оптимальное количество кластеров, мы можем подсчитать средние характеристики по каждому из них. Это полезно тем, что появляется возможность выбора лучшего/худшего кластера по любой характеристике или по совокупности всех характеристик.

Осуществив данный подсчет, мы получили 7 кластеров.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

Кластер №2 был признан лучшим по совокупности характеристик и выбран для дальнейшего анализа. Далее мы рассчитали в данном кластере процентное соотношение аудитории по полу/возрасту и т.д.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

Как итог, мы выделили оптимальную для нас аудиторию, исходя из ее поведения на сайте (проведенное там время, отказность, аффинити-индекс и т.д.), по ряду характеристик: полу, возрасту и категориям интересов.

Кластеризировали, да не выкластеризировали: как кластерный анализ повышает результативность рекламных кампаний

По итогам кластеризации для клиента была создана тестовая кампания, которая таргетировалась на сегмент Яндекс.Аудиторий и на профиль пользователя. Сегмент Яндекс.Аудиторий представляет из себя пользователей похожих на тех, которых мы выделили в отдельный сегмент в Яндекс.Метрике, руководствуясь результатами кластерного анализа. Профиль пользователя состоял из интересов, также выявленных во время анализа. Полученные корректировки по полу/возрасту позволили отсечь нежелательную для нас аудиторию.

Экспериментальная кампания, созданная с оглядкой на результаты кластерного анализа, отработала месяц, показав следующие результаты:

- РК принесла ~14% лидов от общего количества заявок в рамках четырех тестовых недель;

- стоимость одного лида, привлеченного данной РК, была на ~39% меньше средней стоимости лида по всем остальным кампаниям.

Всё это позволило нам увеличить общее количество заявок и снизить их среднюю стоимость.

В настоящее время не существует онлайн-сервиса, который позволил бы машинизировать все вышеописанные процессы, а значит сократить время на проведение подобных аналитических мероприятий. Однако полученные нами результаты позволяют судить об успешности эксперимента, а значит время, которое ушло на мануальные расчеты, было потрачено не зря. На данный момент похожий эксперимент запущен и у других наших клиентов. Этими результатами мы планируем поделиться в будущем. Мы также собираемся провести отдельную серию экспериментов, в которой бы сравнивались эффективность математического подхода и субъективной оценки, основанной на предположениях и опыте специалистов. Подписывайтесь на нас, чтобы не пропустить. ☺

P.S. Предвещая вопросы тех, кто уже занес пальцы над клавиатурой, чтобы спросить, а зачем, собственно, было так заморачиваться с кластеризацией вручную, если существуют готовые скрипты на различных языках программирования, которые могут воспроизвести хотя бы часть расчетов из алгоритма данного анализа за секунды? Ответ следующий: мы проделали всю эту работу вручную, потому что было любопытно, насколько сложным это окажется и сколько времени займет. Нас также расстраивало, что специального инструмента, способного проделывать ВСЕ вышеописанные манипуляции, как было сказано, пока нет. Но скоро будет здесь, stay tuned.

1313
4 комментария

Я тоже не доверяю готовым скриптам на языках программирования. Для этих... как их там.. ЭВМ, блять.

2
Ответить

А мы и не говорили, что не доверяем) Было интересно самим посчитать ручками.

Ответить

"На грамотную и глубокую аналитику часто не хватает средств, времени и, что печальнее, компетенций"
Печально, когда средства и время есть,  а делают спустя рукава -_-
Некоторые реально от отсутствия компетенций, потому что чаще всего гуманитарии не особо умеют в исследования (выборка, кластеры, факторы, квоты там всякие - это всё за пределом сознания 😂), а некоторые умеют, но не хотят заморачиваться, заказчик же всё равно не шарит

1
Ответить

Солидарны, это вдвойне печально. Еще бывает непросто доказать заказчику, что игра стоит свеч и следует потратить временные и денежные ресурсы на исследование, чтобы все дальнейшие действия были более результативными. Никто не хочет ждать, все хотят результатов и как можно скорее.

Ответить