Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Каждый маркетолог знает, что сегментация целевой аудитории – наше все!

Сегментация ЦА позволяет лучше узнать своих покупателей, более точно формировать рекламный посыл для каждого сегмента, а также правильно формировать продуктовую линейку. Это приводит к более полному и качественному удовлетворению потребностей покупателей, и в итоге к увеличению продаж и прибыли.

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Привет! Меня зовут Гашпар Юрий. Я CEO SkyDigital. Люблю возиться с данными, искать в них закономерности и инсайты.

Сегодня я хотел бы рассказать об одном интересном варианте сегментации - о сегментации покупательских корзин.

Для анализа возьмем данные одного из наших клиентов, а именно всю информацию из чеков за один месяц одного магазина торговой сети алкомаркетов. Клиент любезно разрешил мне использовать его обезличенные данные для научной публикации. Один чек — это фактически одна покупательская корзина.

Алкомаркет я взял с той мыслью, что там не слишком широкая ассортиментная линейка, и каждая группа покупателей из-за этого более четко выражена и интуитивно понятна. Тем самым, на нем хорошо приводить примеры (см. ниже).

Сами по себе данные, которые содержаться в чеках, являются бездонным кладезем полезной информации. Их можно анализировать бессчетным количеством разных методов.

Итак, мы взяли чеки за один месяц и специальным математическим алгоритмом кластеризации сгруппировали их по похожести продуктового набора и количества товаров. Группировка и поиск похожести проводилась не по отдельным SKU, а по товарным группам.

В итоге мы выявили несколько групп потребителей (в нашем случае их было 5) с одинаковым покупательским поведением, потребностями и привычками. Ну что же может быть прекрасней! Сегментация в действии.

Для визуализации результатов нашей сегментации мы будем использовать так называемую лепестковую диаграмму. Этот тип графика еще называется «Radar Chart» или «паутинка». Эту диаграмму удобно использовать для сравнения между собой многопараметрических объектов. У меня этому типу визуализации посвящена отдельная статья.

Вот как выглядят результаты работы нашего алгоритма кластеризации в табличном виде (таблица представлена в урезанном виде):

Количество покупок товаров каждой товарной группы в каждом кластере за 1 месяц.
Количество покупок товаров каждой товарной группы в каждом кластере за 1 месяц.

А вот наша лепестковая диаграмма, построенная на данных из таблицы выше:

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Если вы раньше не встречались с таким типом графиков, то он вначале может вам показаться немного сложным. Но если вы к нему привыкнете и поймете структуру, то он позволит вам понять всю ситуацию в целом за один лишь взгляд.

Каждый покупательский кластер обозначен своим цветом. По осям каждой категории товара отложено количество покупок за месяц в данной категории в данном кластере. Центр - ноль покупок. Чем ближе график к краю круга, тем больше совершено покупок в данной товарной категории людьми из данного кластера, тем соответствующие предпочтения сильнее.

Этот график, где одновременно изображены все 5 групп покупателей, хорошо показывает, насколько эти группы разные в своих предпочтениях!

Давайте посмотрим каждый кластер по отдельности и попробуем понять, что из себя представляет каждая группа покупателей. Еще раз - чем ближе график к краю круга по направлению определенной категории, тем больше товаров из этой категории покупают люди из данного кластера.

КЛАСТЕР №1

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Абсолютный лидер в корзинах покупателей из этого кластера - пиво. Потом идут закуски. Пиво-чипсы-орешки. Тут все понятно. Т.н. "пивозавры". Иногда покупают в комплекте также водку, видимо, чтобы "ускориться".

КЛАСТЕР №2

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Абсолютный лидер - водка. На втором месте сидр/джин, пиво, напитки. Видимо для «запить». Закуски тоже используются, но гораздо реже, чем вместе с пивом (сравните пики графиков этих двух кластеров в категории "закуски" на общем графике выше).

Эта группа также абсолютно понятна и прозрачна. В дополнительных объяснениях не нуждается.

КЛАСТЕР №3

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

В корзинах этой группы доминирует вино. В меньшей степени также могут присутствовать более легкие напитки - шампанское, пиво и, внимание, мороженое! Также есть небольшой акцент на товары из распродажи. Мороженное и шампанское нам подсказывают, что это кластер женский. Уцененные товары, возможно, показывают на молодых девушек, может даже студенток, которые любят «винчик», но денег на дорогие сорта у них нет.

КЛАСТЕР №4

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Этот кластер можно назвать «заскочили за сигаретами». Как мы видели выше, сигареты появляются регулярно и в других корзинах, но там они идут в нагрузку к другим товарам. А здесь целью визита в магазин являются именно сигареты, и иногда какие-то другие напитки, преимущественно безалкогольные! Т.е. - «Пачку сигарет. И водичку какую-то дайте».

КЛАСТЕР №5

Сегментация покупательских корзин алкомаркета. Реальный кейс. Data Science и BI в действии

Видим совершенно особенный кластер. Это люди любители «кастомного» курения. Они специально приходят, чтобы купить только табак и бумагу, чтобы крутить самокрутки. Иногда могут прихватить с собой пару пива.

Теперь осталось понять, какой процент от общего количества покупателей занимает каждый кластер. Построим для этого круговую диаграмму.

Соотношение количества покупателей в каждом кластере
Соотношение количества покупателей в каждом кластере

Соотношение довольно ожидаемое. На первом месте по количеству люди, которые приходят за пивом, на втором месте «заскочили за сигаретами», на третьем месте любители водки. Студентки и любители самокруток сильно отстают, и занимают, соответственно, четвертое и пятое места.

Сделаем выводы и попробуем понять, что дает нам такого рода анализ корзин. Как, например, маркетолог, категорийщик или директор магазина может использовать полученные данные в своей работе.

Кажется, что результаты довольно очевидны. Трудно ожидать от алкомаркета какого-то сильного разнообразия покупателей. Но даже после такого довольно грубого и неполного анализа мы видим, что у рассматриваемого магазина большие проблемы.

Покупательские корзины очень «узкие». Руководству сети и магазина необходимо принять целый ряд мер, который бы расширил ассортимент одной корзины. Также важно будет расширять аудиторию. Например, привлечь к себе покупателей вин средних и высоких ценовых категорий. Увеличить количество спонтанных покупок (себе пиво, детям чупа-чупс). Возможно подумать об увеличении предложений продуктов повседневного спроса – хлеба, ЗПФ, яиц. В общем есть о чем поразмыслить.

Очевидно, что данный вид анализа, хоть и довольно информативный, не является исчерпывающим. Для получения более полной картины, можно и нужно провести другие исследования. Средний чек, динамика средних чеков, распределение чеков, частотность покупок, динамика товарооборота, распределение SKU внутри групп, бестселлеры, привязка покупок ко времени, АВС и XYZ анализ, факторный анализ прибыли/убытков, географическое распределение эффективности магазинов и т.д. и т.п. Также важен анализ объемов тары и ценовых категорий. И это далеко не полный перечень того, чем занимаются бизнес аналитики.

Например, покупка водки в 9 утра, чекушка в обед, и бутылка Finlandia в 9 вечера – это три совершенно разные водки, совершенно разные модели покупательского поведения.

Такого рода исследования, вместе или по отдельности, могу помочь в принятии правильных управленческих решений, и в итоге вывести бизнес на новый уровень.

Это и есть суть Data Science и бизнес аналитики, или как ее еще называют BI (Business Intelligence)

В дополнение хочется сказать, что в приведенном анализе мы не использовали данные карт лояльности (привязку корзины к конкретному покупателю). Также не учитывалось время покупки, и еще целый ряд других важных параметров.

Но видим, что неплохие результаты получены даже без этих данных. Если же вдобавок использовать привязку к картам, а также имеющийся соцдем и другие фичи, то портрет корзин и групп покупателей будет просто прецизионно точным.

Немного подробнее о методе. Для тех, кому интересно.

Математический алгоритм, который мы применяли для сегментации чеков называется кластерный анализ.

Я написал отдельную статью на vc.ru про кластерный анализ на примере абстрактного магазина, где продаются только соленые огурцы и молоко.

Там я простым языком, без математики, попытался рассказать о методе людям, которые не знакомы с математическим моделированием и машинным обучением.

Примечание 1. Для тех, кто помнит математику и для коллег аналитиков данных уточняем, что шкала на наших графиках логарифмическая и нормированная от 0 до 1. Если вы не знаете, что это, не переживайте, общий смысл от этого не изменится. Если строить графики на абсолютных данных, то пики (пивные, водочные) были бы значительно больше, а второстепенные товары сливались бы с нулем. Из-за этого визуально их оценивать и анализировать было бы гораздо труднее.

Примечание 2. Чрезмерное употребление алкоголя вредит вашему здоровью.

66
2 комментария

Я думаю, сегментация покупательских корзин - очень важный шаг для оптимизации работы магазина

1

Спасибо за комент. И не только сегментация, а и аналитика в целом. У меня такое впечатление, что добрая половина российского среднего и части крупного бизнеса вообще не очень себе представляют, какие процессы происходят у них в компаниях. Тренды, узкие места, аномалии, перспективы, причины-следствия и т.д. Все решения принимаются на основании "а мне так кажется", "я так думаю" или "я так Щитаю" :)
Т.е. "data driven economy" зачастую отсутствует как класс.