{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

О кластеризации. Для маркетологов и категорийщиков. Объясняем на пальцах (огурцах)

В своей публикации на vc.ru я подробно рассказывал об интересном кейсе сегментации покупательских корзин на основе чеков.
Для сегментации был использован математический алгоритм, который называется кластеризация. В результате применения этого алгоритма было выявлено 5 групп покупателей с разным поведением и предпочтениями.

Я получили большое количество вопросов и просьб рассказать подробнее о самом алгоритме и разъяснить, как он работает.

Меня зовут Гашпар Юрий, я CEO SkyDigital, и сейчас я вам на пальцах попробую объяснить, что такое кластеризация.

Не буду лезть в глубокую математику, а расскажу все на простом примере абстрактного магазина, где продаются всего два наименования товара - молоко и соленые огурцы 😊

Пример

Молоко всегда смешней, если после огурцов.

Отто фон Бисмарк.

Давайте проанализируем все чеки нашего условного магазина за определенный период, и нанесем на график данные о продажах. Каждая точка - это приобретенная корзина товаров одного покупателя или, что одинаково по смыслу, один чек. По вертикали отображаем количество упаковок молока в одной корзине, по горизонтали отображаем количество соленых огурцов в той же корзине.

Т.е. если в чеке всего одна пачка молока, то мы ставим на графике точку с координатами (0,1) - «ноль банок огурцов и одна упаковка молока».

В итоге получаем некое облако точек.

Каждая точка отображает один чек. На осях отложено количество товаров в каждом чеке.

Основная идея алгоритма кластеризации заключается в том, чтобы разбить объекты, в данном случае наши покупательские корзины, на группы по похожести признаков.

В нашем случае признаками будут товары в этой корзине. Внутри одной группы эти объекты должны быть более похожи друг на друга, чем на объекты другого кластера.

Поскольку у нас всего два товара, нам не нужно никакой математики, чтобы увидеть на графике, что наши точки (чеки/корзины) сгруппировались в три кластера:

Кластер 1. Люди, которые покупают только молоко, от одной до трех пачек за раз.
Кластер 2. Люди, которые покупают соленые огурцы в количестве от трех до семи за раз.
Кластер 3. Отчаянные экстремалы, любители острых ощущений, у которых в корзине может быть одновременно и молоко и соленые огурцы.

Фактически мы провели примитивный кластерный анализ корзин, где идентифицировали три группы покупателей со своим характерным покупательским поведением и предпочтениями.

По результатам этого исследования категорийный менеджер нашего магазина может принять решение о расширении товарной матрицы, например, туалетной бумагой. И предлагать ее на кассе покупателям из третьего кластера в экономичной упаковке по 12 рулонов. Хотя пример простой и смешной, но он отображает всю суть.

Вот еще графики, где показаны более реальные примеры кластеризации. Опять же это случай простого двумерного пространства («молоко-огурцы»).

Набор данных без обработки.

Алгоритм смог выделить три кластера из первоначальных данных.

Более детализированный анализ тех же данных.Алгоритм смог выделить целых 5 различных кластеров!

Конечно, в реальной жизни все намного сложнее. Товаров не два, а тысячи. И точка (корзина) у нас не в двумерном пространстве «молоко-огурцы», а в многомерном – «молоко-огурцы-помидоры-хлеб-…семена гладиолусов». И визуально выделить кластеры у нас не получится. Человеческий мозг даже не может себе представить пространство, где измерений больше трех.

Но, к счастью, есть специальные математические алгоритмы, которые за нас решают эту проблему и сами разделяют корзины на группы по их похожести. Для реализации этих алгоритмов аналитики, как правило, используют языки программирования (Python, R и другие) и специальные библиотеки.

А вот что дальше делать с полученными результатами кластеризации, как их визуализировать и анализировать, какие можно делать выводы - читайте в моей статье на vc.ru:

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Для анализа возьмем данные одного из наших клиентов, а именно всю информацию из чеков за один месяц одного магазина торговой сети алкомаркетов. Клиент любезно разрешил мне использовать его обезличенные данные для научной публикации. Один чек — это фактически одна покупательская корзина.

В этой публикации я показываю, как применять кластеризацию на практике. Вы можете увидеть, чем она может помочь в реальной жизни маркетологам, аналитикам, руководителям и другим людям, участвующим в бизнес процессах.

0
2 комментария
Robert47

Так бы и сказали - с помощью математического метода "уменьшение размерности" мы посмотрим наглядно на взаимосвязи между объектами. Учите Python , изучайте UMAP и Bokeh пакеты , и получите такие же картинки. Развели тут кашу...

Ответить
Развернуть ветку
Гашпар Юрий
Автор

Спасибо за критику. Эта статья была задумана, чтобы просто разъяснить тему для людей, которые по роду своей деятельности редко сталкиваются с чем-то сложнее Excel.

Конечно, для человека, уже владеющего Python, эта публикация покажется слишком простой. Но боюсь, что для вышеупомянутых людей слова UMAP, Bokeh и прочие K-means будут звучать как заклинания 😊

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда