Всё, что вам нужно знать о корреляционном анализе в контекстной рекламе, и даже больше

Всё, что вам нужно знать о корреляционном анализе в контекстной рекламе, и даже больше

В этой статье мы могли просто переписать известные тезисы о линейной корреляции по Пирсону, но решили пойти другим путём. Те, кто дойдёт с нами до конца, поменяют мнение о расчёте ценности конверсий. Поехали!

С мая 2023 года собирали материалы, консультировались у математиков и наших друзей из Яндекса. В итоге получился лонгрид, где мы разбираем альтернативные варианты расчёта и показываем метрики, которые могут заменить линейный коэффициент корреляции. Но самое главное, мы подробно рассказываем, как правильно применять эти данные в нашей работе и почему классический расчёт подходит PPC-специалисту далеко не всегда.

Статья будет полезна как новичкам, которые ничего не знают о корреляции, так и опытным специалистам. Мы начинаем с азов и заканчиваем такими вещами, как коэффициент аппроксимации и прочие «абракадабры».

Что такое корреляционный анализ в контекстной рекламе и зачем он нужен

Корреляционный анализ — метод подсчёта взаимосвязи одного параметра с другим. Если переложить на язык контекстологов, это способ понять, какие микроконверсии стоит использовать в автостратегиях, а какие нет.

Пример коррелирующих показателей из жизни — калории и вес. Если снизить количество потребляемых калорий, но не менять уровень активности, масса тела будет уменьшаться. И также верно и обратное.

Однако в работе контекстолога далеко не всегда приходится иметь дело с интуитивно понятной взаимосвязью (корреляцией) между показателями. К примеру, человек провёл на сайте минимум минуту. Мы можем предположить, что он с большей вероятностью оставит заявку, чем тот, кто был меньше минуты. Но всегда ли так? И какая тут численная взаимосвязь?

Как обычно считают корреляцию в контекстной рекламе

Чаще всего в контекстной рекламе используется коэффициент Пирсона. Да, это тот, который вшит в функцию КОРРЕЛ в Excel. Давайте посчитаем его для наших синтетических данных. Для удобства мы сгенерировали их более наглядными, чем реальные.

Возьмём период в один месяц с разбивкой по дням. В реальности мы рекомендуем выгружать не менее 10 строк данных с разбивкой по неделям или месяцам (по дням можно только при больших суточных объёмах).

В первую очередь нужно визуализировать данные с помощью диаграммы рассеивания. Вот как это сделать в Excel:

  1. На панели инструментов нажимаем «Вставка» → «Диаграммы» → «Точечная».
  2. Кликаем ПКМ по диаграмме и находим пункт «Выбрать данные».
  3. Выбираем диапазон значений первой микроконверсии в поле X и диапазон макро в Y.
  4. Повторяем построение диаграммы для оставшихся микроцелей.
  5. Дополнительно для каждой диаграммы строим линию регрессии. Для этого кликаем ПКМ по любой точке на диаграмме и выбираем «Линия тренда».

Так выглядит процесс создания диаграммы рассеивания

А вот конечный результат:

<p><i>Получилось четыре разных графика</i></p>

Получилось четыре разных графика

В боковом меню настроек линии тренда можно выбрать её тип. Также рекомендуем поставить галочку напротив уравнения и аппроксимации (R2). Уравнение показывает модель зависимости микроцели от макро, а аппроксимация — достоверность этой модели.

Чтобы считать зависимость микроцели от макро значимой, аппроксимация должна быть более 0,7.

Теперь — как это интерпретировать:

  • Если через облако точек можно провести прямую линию (график по микроцели 1) и точки будут отходить от неё сверху и снизу примерно на равное расстояние, скорее всего, у вас линейная зависимость. Можно попробовать посчитать коэффициент корреляции по Пирсону.
  • Если линия имеет нисходящий или восходящий тренд, но является кривой или дугой (график по микроцели 3), читайте ниже про альтернативные подходы к расчёту корреляции. Они покажут зависимость конверсий более точно.

  • Если у вас на графике будут синусоиды, ломаные разнонаправленные линии, волны или хаотичный набор точек (график по микроцелям 2 и 4), не стоит даже искать корреляцию и оптимизироваться по этой микроцели. Даже если у вас это получится, при росте числа конверсий по микроцели в одних случаях будет расти и конверсия в макроцель, а в других она будет падать. Так вы обучите кампанию достигать некую микроцель, которая будет устраивать качели в KPI с наскоками и спадами.

  • Если после построения линии тренда вы видите на графике небольшое количество точек, которые слишком выбиваются из общей картины, — скорее всего, это выбросы. Их нужно исключить из общих расчётов, так как коэффициент корреляции к ним чувствителен.
<i>Так выглядят выбросы на графике</i>
Так выглядят выбросы на графике

Рассчитывать корреляцию без графиков — всё равно что идти по незнакомому коридору в темноте. Кажется, что вы знаете правильное направление, но понятия не имеете, что ждёт впереди. А ещё не замечаете альтернативных, более перспективных вариантов движения и в любой момент можете наступить на грабли.

P.S. Помимо того, что при расчёте корреляции обычно не учитывают тренд, есть ещё ряд серьёзных ошибок. Вынесли их в полную версию нашей исследовательской работы, ссылку опубликуем чуть позже.

Из наших графиков видно, что на линейную корреляцию похожи Micro 1 и Micro 3. Заметных выбросов на них нет, а значит, мы можем переходить к самому расчёту коэффициента корреляции. Используем для этого функцию КОРРЕЛ. В качестве первого массива выбираем столбец с макро, в качестве второго — нужный столбец с микро.

Рассчитываем коэффициент корреляции через КОРРЕЛ

В итоге получаем такие результаты:

Благодаря построению графиков мы могли бы не тратить время на расчёты для Micro 2 и Micro 4.

Интерпретация результатов расчёта корреляции по Пирсону

Для интерпретации результатов обычно используют шкалу Чеддока.

Рекомендуем применять и положительную, и отрицательную градацию корреляции по ней:

Чем ближе у вас корреляция к 1 или −1, тем больше зависимости между целями Macro и Micro. При этом, если корреляция положительная, чем больше достигается микроцель, тем больше у вас будет макро, и наоборот.

Зная про эту особенность, можно не только оптимизировать рекламу по хорошо коррелирующим micro целям, но и собирать сегменты посетителей, которые плохо влияют на конверсию в макроцель. По ним стоит делать отрицательную корректировку ставок.

К примеру, вы можете проверить на отрицательную корреляцию не только визиты с отказами, но и тех, кто:

  • провёл меньше n секунд на сайте;

  • посетил страницу с информацией о доставке и оплате;

  • увидел ваш всплывающий баннер и т.п.

Лайфхак: если у вас есть CRM, можно передавать из нее в аналитические системы события (цели) с данными каждого менеджера, который взял заказ в работу.

А затем посмотреть, кто из этих менеджеров лучше коррелирует с макроцелью, приносящей вам прибыль.

Обычно для оптимизации кампаний по микроцелям рекомендуют использовать те, у которых высокая сила связи (от 0,7) по Чеддоку с макроцелью. Мы же предлагаем разобраться, откуда взялась такая цифра.

Если очень упростить, то коэффициент корреляции, возведённый в квадрат (коэффициент детерминации), говорит, насколько наша микроцель влияет на макро. Так, при корреляции 0,7 влияние микроцели на макро составит 0,7² × 100% = 49%, а при корреляции 0,75 получаем 0,75² × 100% = 56,25%. А дальше решать вам, достаточно ли влияния микро на макро на 49%, или лучше перестраховаться.

Альтернативные способы вычисления корреляции

Если корреляция на диаграмме рассеивания видна, однако она нелинейная, на помощь приходят коэффициенты ранговой корреляции. В частности, самый популярный — коэффициент Спирмена.

Коэффициент корреляции по Спирмену

Ранговая корреляция — это, по сути, преобразование исходных данных в в шкалу от 1 и далее. Чтобы в ней разобраться, посчитаем коэффициент на нашем примере для Micro 3. Визуально для неё можно обнаружить эту самую нелинейную зависимость:

  1. Создаём два дополнительных столбца для рангов Micro 3 и Macro.

  2. В новых столбцах прописываем в верхней ячейке формулу:

    =РАНГ.СР(зн_цели; Диапазон_зн_цели;1)

    где:

    зн_цели — ссылка на ячейку, для которой считаем ранг,

    Диапазон_зн_цели — это весь диапазон для ранжирования одного столбца.

  3. Протягиваем формулу и повторяем все шаги для второго столбца. Важно: диапазон в формуле должен быть зафиксирован $.
Вот как это выглядит в Excel, ссылка на файл с расчётами

4. Считаем корреляцию всё той же формулой КОРРЕЛ, только уже для ранговых значений. Результат можно сравнить с коэффициентом Пирсона:


Спирмен: 0,89338836

Пирсон: 0,85410543

Как мы видим, коэффициент Спирмена больше коэффициента Пирсона. Это говорит о том, что связь монотонна, но, вероятно, не линейна. В будущем, когда мы будем использовать коэффициент для расчёта ценности конверсии, лучше использовать наивысший коэффициент — Спирмена (при условии, что он же будет наивысшим и для других микроцелей).

Метод взаимной информации и множественный коэффициент корреляции

Есть ещё два коэффициента, о которых стоит рассказать. В этой статье мы их кратко опишем, а подходы к расчётам и примеры использования вы сможете найти в полной версии исследования.

  1. Взаимная информация.

Если требуется посчитать зависимость между макроцелью и качественными показателями, можно использовать теорию информации, в частности коэффициент взаимной информации. Так вы поймёте, что больше влияет на продажи: пол, возраст или попадание в интерес, например к домашним животным.

2. Множественный коэффициент корреляции

Используют только для микроцелей, которые хорошо коррелируют с макро, но не коррелируют друг с другом. Так мы даём алгоритмам автостратегий пути к достижению макроцелей через микроцели с разными сферами влияния на макро.

Основным применением множественного коэффициента корреляции мы видим прогноз составных целей из нескольких микроцелей. Если их множественный коэффициент будет высоким к макроцели, тогда (с большой вероятностью) и составная цель из них будет хорошо коррелировать с макро.

При этом нет смысла его считать, если вы собираетесь добавлять в кампанию несколько микроцелей и для каждой прописывать свою отдельную ценность.

Вывод по первой части

  1. Перед расчётом стройте диаграммы рассеивания и графики — на их основе принимайте решения о том, какую корреляцию считать и считать ли вообще.
  2. Если считаете линейную корреляцию, делайте выводы не на основе коэффициента, а на основе его квадрата — детерминации.
  3. Отрицательные значения корреляции не менее важны, чем положительные.
  4. Есть несколько альтернативных вариантов расчётов для тех случаев, когда не подходит корреляция по Пирсону.

Во второй части статьи мы разберём варианты практического применения коэффициентов в контекстной рекламе, затронем регрессию и качество прогнозной модели и выведем несколько дополнительных метрик для аналитики и оптимизации рекламы.

3333
3 комментария

В реальности мы рекомендуем выгружать не менее 10 строк данных с разбивкой по неделям или месяцам (по дням можно только при больших суточных объёмах).

А большие суточные объемы - это от скольки примерно?

1
Ответить

Корреляция отказов к заявке получилась 0,7))) 32 строки данных в разрезе по неделям. Потом пересчитал в разрезе по дням, чтобы было больше строк, и даже так получилась достаточно высокая корреляция - 0,59. Что я делаю не так?

Ответить

понял свою ошибку, вопрос снимается

Ответить