Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Что случается, когда математик работает специалистом по контекстной рекламе.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Всем привет, меня зовут Юрий Болотов. Я работаю специалистом по контекстной рекламе в студии «АлаичЪ и Ко».

Перед тем как ты, уважаемый читатель, перейдешь к основной части, я сразу хочу оговориться, что анализ трафика на примере статьи взят просто для примера. Все формулы расчетов будут актуальны и для любых других данных:

  • средних чеков;

  • количества продаж в офлайн-магазине;

  • оповещений о падении трафика с контекста;

  • оценки эффективности изменений в рекламной компании;

  • да хоть количества ошибок в тексте вашего копирайтера или количества бракованных деталей на заводе — метод, который мы будем рассматривать, как раз чаще всего используют для реальных производств.

Также постараюсь ответить на вопрос «и чё?» (зачем это все надо).

В любых данных, на которые мы обычно смотрим, содержится информация о том, как реально работает наша система (привлечения трафика, система продаж, оборудование на заводе и т. д.) и разные специальные причины или особые случаи.

Так вот, системное нужно лечить системно, и для этого есть целый ряд анализов — корреляционный, факторный, кластерный и т.д. А особые случаи надо лечить особо.

Собственно, описанный ниже метод и позволяет узнать, где особые случаи, а где системные.

Метод этот — контрольные карты Шухарта. Это ГОСТ Р 50779.42-99. Этот метод очень точный. Всего в 0.3% случаев (3 на 1000) есть риск, что график выйдет за границы, когда никаких особых причин нет.

Существует несколько видов контрольных карт. Нам для наших задач очень подходит карта скользящих размахов. Именно работу с ней я и буду описывать. Для примера был взят трафик на блог нашего руководителя Александра Алаева.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Новые посетители были взяты лишь из расчета, что они еще не знают про организацию и могут быть заинтересованы в услугах в отличии от постоянно посещающих.

И так, мы взяли и записали в эксельке трафик новых посетителей в будние дни.

(Не обращайте внимания на то, что в таблице данные почти годовалой давности, эта публикация очень долго пролежала «в столе» перед тем, как мы решили ее опубликовать).

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Теперь надо нам надо посчитать скользящий размах. Это разница между 1 и 2 значениями, 2 и 3, 3 и 4 и т. д.

Так, разница между 1 и 2 значениями у нас 581-486=95, разница между 2 и 3 — 585-581=4 и т. д. В результате получаем такую таблицу:

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Следующим шагом нам надо посчитать средние значения посетителей (B столбец) и скользящих размахов (C столбец).

Среднее посетителей = (486+581+...+566)/21 = 564 или формулой в таблице =СУММ(B1:B21)/21.

Среднее размахов = (95+4+...+24)/20 = 40,8 (=СУММ(C2:C21)/20).

Теперь берем наш средний размах и умножаем на 3,267 (это постоянное число и не зависит от других параметров. Можете поверить мне, можете проверить по таблице в ГОСТе).

40,8*3,267=133,29. Это число называется верхней контрольной границей скользящих размахов.

Нам надо проверить, чтобы наши размахи не выходили за пределы этой границы. Если выходят, то сначала надо искать причину и устранять ее, прежде чем двигаться дальше. Например, при анализе общего трафика на сайт такое может возникнуть, если бюджет контекстной рекламы пополняется в случайные дни, и она то работает, то нет. В нашем случае все размахи входят в границу. Значит, двигаемся дальше.

Последним шагом в расчетах мы найдем верхнюю и нижнюю контрольные границы нашей карты.

Верхняя контрольная граница (UCL) = Среднее значение (564) + Среднее значение размахов (40,8) умноженное на 2,66 (это тоже постоянное значение, взятое из таблиц в ГОСТе).

UCL=564+40,8*2,66=672.

Нижняя контрольная граница (LCL) = 564-40,8*2,66=455.

Для наглядности построим график:

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Все операции, проделанные выше, были сделаны еще в начале октября. После этого я стал ждать, когда график выйдет за границы, чтобы можно было показать это, найти причину выхода и закончить эту статью каким-нибудь наглядным примером.

Долго ждать не пришлось.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Уже 11-го числа график вышел за верхнюю границу. «Вот оно!» — подумал я. «Значит что-то случилось. Просто так этого быть почти не могло».

Когда я построил отчёт в Метрике по источникам перехода, то сразу понял, что же именно случилось. Оказалось, что 10 числа была опубликована статья-интервью на Спарке.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Именно это событие и было особым случаем, который контрольные карты должны выявлять.

После того, как подобное событие найдено, необходимо либо приложить все усилия, чтобы оно стало постоянным (когда это возможно) если событие положительное; либо, если оно отрицательное, постараться сделать так, чтобы оно никогда больше не наступало.

А теперь один реальный кейс по контекстной рекламе.

В конце ноября 2017 года к нам на контекстную рекламу пришел крупный интернет-магазин. Для крупных клиентов с большими бюджетами (там, где трудозатраты имеют смысл) я для себя строю карты по основным метрикам. Обычно это общее количество визитов, визиты по основным рекламным каналам, CPL и % конверсии (по нему очень удобно определить проблемы с оформлением заказов на сайте).

Весь декабрь и январь мы настраивали кампании в Google AdWords, Google Merchant, Яндекс.Директ, Яндекс.Маркет. В конце-концов, к февралю, все основные направления были запущены, фиды загружены, бюджеты пополнены. Клиент все время активно дорабатывал сайт, создавал новые разделы, менял корзину и т. д. О каких-то изменениях клиент нас предупреждал, а о каких-то нет. Одно из таких изменений и привело к тому, что я решил написать всю эту статью.

В феврале я решил, что пора построить карту и следить за показателями. Реклама к этому моменту работала стабильно, системы аналитики были настроены и казалось, что ничего не предвещает проблем.

По итогам февраля я взял данные по визитам за месяц, посчитал аналогично скользящие размахи.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Посчитал:

  • среднее значение — 660

  • средний размах — 72

  • верхнюю границу — 852

  • нижнюю границу — 470

Построил график (хотя на практике удобней просто в таблице выделять цветом данные, выходящие за пределы)

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

После построения графика, осталось только ждать и наблюдать, а т. к. клиент все еще много работал над сайтом, то первая проблема не заставила себя ждать.

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Уже 16 марта график вышел за нижнюю границу. А т. к. 17-18 были выходные, то поиск проблемы начался лишь 19-ого числа.

Пересмотрев отчеты в метрике и рекламных кабинетах, я обнаружил следующую картину:

Применение контрольных карт Шухарта для количественного анализа трафика (и любых данных вообще)

Уже потом выяснилось, что в 16 числа была переделана мобильная версия сайта и туда просто забыли установить коды аналитики.

В конце хочу привести еще одну гипотетическую ситуацию, как применение контрольных карт может перевернуть взгляд на некоторые вещи с ног на голову.

Представьте, что у вас есть производство каких-нибудь мелких изделий. Вы решаете, что надо замерять количество бракованных деталей по каждому мастеру отдельно. Строите карты, высчитываете границы и начинаете следить изо дня в день.

Вдруг в какой-то день вы видите, что мастер Петр Иванович вышел за нижнюю границу или, говоря по-другому, сделал так мало брака, как никогда. Для вас это сигнал — надо выяснить, что же такого в этот день случилось с Петром Ивановичем, чего никогда раньше не было?

Вы выходите из своего офиса, спрашиваете людей и выясняется, что мастер пришел на работу немного «под мухой». И в таком состоянии у него руки не трясутся, он спокойно и невозмутимо делает свою работу.

Что же это получается? Вместо того, чтобы оштрафовать мастера или уволить по статье, надо разрешить ему немного принимать утром на грудь! :)

Это, конечно, юмор (с бесконечным уважением к мастерам). Надеюсь, пример «как можно посмотреть на ситуацию с другого ракурса» понятен.

Хорошего дня и спасибо, что прочитали! Буду рад пообщаться в комментариях.

4848
33 комментария

И? "Уже потом выяснилось, что в 16 числа была переделана мобильная версия сайта и туда просто забыли установить коды аналитики." - а без этих карт вы в метрику не смотрите? Там и без карт таро видно, что 16 траф просел. Даже не 16-го, а чуть раньше. В производстве согласен, но тут все за уши притянуто.

20
Ответить

Если посмотреть на график с 8 по 11 февраля, то он тоже очень сильно просел, однако за границу не вышел. Поэтому и строится карта с вычислением границ, чтобы просто так не паниковать.
Конечно мы в метрику и без этого смотрим, только данные можно по разному анализировать

2
Ответить

да даже на производстве знай записывай в базу (эксель и т.д.) и строй визуализацию (график). любая аномалия будет видна на графике. если не видна - это не аномалия
тут всё притянуто за уши

1
Ответить

Хотя я не буду отрицать, что в случае с блогом Саши это действительно притяну для демонстрации. И это надо в первую очередь бизнесу самому, а не мне. Я всего для 3ех клиентов слежу так за данными

Ответить

Хорошая статья! Саша молодец, что начал прокачивать медийно не только себя, но и сотрудников. Получается клево:)

6
Ответить

Спасибо! Так мы давно уже это... Все свежие кейсы публикуются на разных площадках от имени моих ребят. В том числе на моем блоге про seo последние посты писали специалисты seo-отдела.

3
Ответить