Дудь, ретроградный Меркурий и еда: анализ данных в Instagram помог мне составить портрет типичного подписчика vc.ru

С помощью алгоритмов тематического моделирования я изучил пользователей, подписанных на страницу vc.ru в Instagram, и узнал много интересного. Например, как самоизоляция влияет на поведение и на какие две группы делятся предприниматели.

Привет! Меня зовут Дима Лесневский и я сооснователь компании Optia. Мы с командой помогаем маркетологам принимать решения на основе данных, отслеживать тренды и понимать аудиторию. Всё это — с помощью алгоритмов машинного обучения.

Идеальный мир рекламы и маркетинга, который я представлял в университете, выглядел изящно и понятно. Изучаешь аудиторию, строишь и тестируешь гипотезы, масштабируешь удачные решения. Никаких субъективных оценок, только логика и расчёты. Реальность оказалась сложнее.

Начал с позиции джуниора в рекламном агентстве. Осмыслять происходящее было некогда: нужно собирать и переделывать презентации, а потом заниматься другими презентациями. Слайды с методологией падали в братскую могилу после заглушки «спасибо за внимание», а кампании шли своим путём.

Постепенно рос до синиора и дальше. Через несколько лет работал уже над маржинальностью всего отдела, мотивацией, развитием бизнеса. Следил за тем, чтобы предложения агентства действительно решали задачи клиентов и приносили прибыль компании.

Чтобы уложиться в дедлайны и бюджет, всегда приходилось балансировать между тремя подходами к аналитике:

  1. Привлечь дорогого сотрудника или даже исследовательскую компанию
  2. Использовать обученного джуниора и доступные недорогие инструменты
  3. Придумать красивую историю, а потом найти обоснование

Поиск равновесия повышал личные расходы на психолога, потому что первый вариант убивает маржинальность, второй занимает много времени, а третий – достаточно лицемерный. Без данных работают талант и интуиция отдельных людей, систему построить сложно.

Мне хотелось лучше понимать портрет аудитории, быстро находить тренды, иметь под рукой все нужные срезы информации. Тогда я обратился к приятелю, который руководил отделом data science в ИТ-стартапе Dbrain. Я рассказал ему, с какими проблемами сталкиваюсь в работе, и он предложил объединить наши усилия — его знания в области машинного обучения и мой опыт в маркетинге. Вместе мы решили разработать решение и протестировать его на клиентах агентства.

Оказалось, что совместная экспертиза даёт отличный результат. Технологии сэкономили 20% бюджета крупных рекламных кампаний, помогли подготовить и выиграть несколько тендеров.

Получив первый положительный фидбек, мы решили развиваться дальше. Создали свою компанию, назвали её Optia и стали брать больше проектов по решению маркетинговых задач с помощью технологий.

На этом лирическая часть заканчивается. Сегодня, чтобы показать, как работает наш продукт, мы решили проанализовать аудиторию vc.ru, а именно — пользователей, подписанных на новостной портал в Instagram.

Методология

В выборке подписчиков vc.ru — 29 тысяч пользователей, 5 миллионов постов и 12 миллионов социальных связей. Нет никакой магии, но нужно внимательно относиться к деталям и понимать, какие алгоритмы лучше решают конкретную задачу.

Основное правило работы с данными: мусор на входе — мусор на выходе. Поэтому пайплайн начинается с серии классификаторов, фильтрующих бессодержательный контент.

Дальше на чистых данных работают алгоритмы тематического моделирования, кластеризации и анализа социальных связей. Система строит пространство признаков, которое объясняет содержание постов, а на более высоком уровне — описывает пользователей. После этого можно оставить категории, которые представляют интерес:

На графике — все посты в семантическом пространстве. Точки соответствуют постам, координаты X и Y показывают семантику, цвет – наиболее выраженную тему для наглядности. На самом деле каждый пост определяется взвешенной комбинацией тем.

Большая часть постов стягивается к центру пространства, а разные по смыслу темы хорошо разделяются (например, бизнес и еда). Что интересно: посты про бизнес и саморазвитие визуально распадаются на несколько отдельных кластеров. С ними разберёмся чуть позже, а сначала оценим ситуацию в целом.

Аудитория vc.ru

Сравним усреднённого подписчика vc.ru с усреднённым пользователем Instagram. Читатели vc.ru публикуют у себя больше контента о саморазвитии, путешествиях и бизнесе, меньше говорят о моде, косметике и спорте. Учитывая специфику издания, ничего необычного.

Теперь смотрим, что изменилось в их поведении за последние три месяца. С приходом коронакризиса пользователи стали меньше писать о путешествиях и больше — о работе и уходе за собой в условиях самоизоляции (косметика, спорт, психология).

С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza.

Итог: в спокойные времена читатели vc.ru рассказывают о путешествиях и саморазвиваются, читают блоги предпринимателей и тематические медиа. В период, когда аэропорты закрыты, пользователи сфокусировались на работе и себе.

При помощи обычных сервисов аналитики и ручной обработки больше узнать не получится. Остаётся добавить информацию из медиакита, собрать красивые цифры для отчёта и закончить.

Но мы решили копнуть глубже и разобраться, что стоит за цифрами.

Копаем глубже

Аудитория vc.ru — абстрактная категория. На аккаунт подписываются самые разные люди, которых нельзя уложить в набор из десяти усреднённых параметров. Средние значения — это в принципе условность, которая не всегда описывает реальность.

Нужно изучать внимательнее, чтобы не смешивать всех в одну кучу. Здесь на помощь приходит кластерный анализ на основе контента, который публикуют пользователи. Результат выглядит так:

На этот раз каждая точка — это пользователь, а координаты — проекция семантического пространства на плоскость. График нужен не для того, чтобы оценить качество кластеризации, а чтобы понять близость групп пользователей и их вариативность. Сейчас разберём кластеры аудитории и станет понятнее.

Обычные люди

Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Instagram. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.

Модный диджитал

Другая группа — 25% — пишет обо всём, почти как предыдущая. Больше всего — о путешествиях, моде, саморазвитии и бизнесе. Важное отличие в том, кого они читают. Аффинитивные для группы аккаунты — агентство Setters, Алина Чичина, Art Basel, Wonderzine, а еще ретроградный Меркурий. Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств Москвы или Санкт-Петербурга.

Два сорта предпринимателей

Если помните, тематическая модель разделила посты про бизнес и саморазвитие на несколько различимых подгрупп. Разделение легко объяснить, если внимательнее изучить авторов этих постов.

Оба кластера пишут о бизнесе и саморазвитии. Разница в том, на кого они подписаны. Одни — 15% — читают Тони Робинса, Бизнес-Молодость и курсы по копирайтингу, а другие — 4% — Минпромторг, БКС Премьер и технопарк Сколково.

Прочие

Ещё остались 10% увлечённых путешественников, 3% SMM-щиков, и пара процентов эстетов, которые пишут исключительно о стиле и читают AD Russia.

Моя любимая группа — 2% пользователей, которые пишут исключительно о еде и подписаны на рестораны и страницы с рецептами. Сплошное чревоугодие.

Выводы

Хотелось бы найти ёмкое предложение, которым можно описать всю аудиторию и подытожить анализ. Но не получится — обобщать и усреднять данные, как часто делают сервисы аналитики, неправильно. Кластеризация это наглядно показывает.

В светлом будущем, которое мы в Optia хотим приблизить, усреднённых значений будет меньше, а разумных действий — больше. Цель вполне достижимая, если правильно обращаться с данными.

Технологии решают множество проблем. Можно подбирать блогеров для рекламных кампаний и планировать эффективность размещений. Можно находить тренды и планировать ситуативные кампании, которые точно попадут в сердце аудитории. В конце концов, можно просто синхронизировать проектную команду объективной оценкой ситуации.

Судя по данным, примерно 40% аудитории потенциально заинтересуются этой статьей, а один процент захочет протестировать технологии и напишет на [email protected].

0
41 комментарий
Написать комментарий...
borodutch

Спасибо за статью! Очень интересные данные. Особенно позабавило статистическое разделение вонаби и настоящих предпринимателей 🦄

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Спасибо! Самое интересное — кластеризовали только по контенту, различия в подписках в модель не закладывали. Разница проявилась практически сама собой 

Ответить
Развернуть ветку
Vladimir Chyorniy

Доброго дня. Расскажите какой стек использовали для этого проекта (Какие библиотеки), что что Python) Спасибо! Сколько ушло человеко-часов на этот проект?

Ответить
Развернуть ветку
Igor Rekun

Меня выпустили из бункера и сказали ответить по матчасти. Отвечаю: по DL стеку python / pytorch, высоконагруженные части на Go. Клиентскую аппу сервим на Vue + FastAPI, данные живут в Clickhouse. Человекочасы в джире не трекали, мы по LeanDS работаем, команде зашло. В 4 разработчика за пол года уложились. Спасибо за интересный вопрос (:

Ответить
Развернуть ветку
brioche

Почему разделение по тематикам так напоминает Крым? Неужели все мы здесь из Украины?)

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Это такой тест Роршаха: каждый видит отражение своей личности. 

На самом деле, просто особенность метода. 

Ответить
Развернуть ветку
Ivan Fedotov

Хороший материал. Спасибо!

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

И комментарий достойный!

Ответить
Развернуть ветку
vic buynoff
С приходом коронакризиса пользователи стали меньше писать о путешествиях и больше — о работе и уходе за собой в условиях самоизоляции (косметика, спорт, психология).

Я в шоке. Кто бы мог предположить?

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Предполагать все умеют.
А вот проверить и сказать точно — мало у кого получается. 

Ответить
Развернуть ветку
vic buynoff

Я на самоизоляции стал меньше мечтать о путешествиях на 14.58%, и стал больше бухать на 27.31%. Как тебе такое, Димас?

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Честно говоря, звучит грустно :(
Всё будет хорошо! 

Ответить
Развернуть ветку
vic buynoff

За прогноз ответишь )

Ответить
Развернуть ветку
Сергей Михельсон

Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств - лучше бы детей рожали, столько от них бед...

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Ну что же вы так грубо

Ответить
Развернуть ветку
Сергей Михельсон

Что плохого рожать детей?) А вот ЧСВ, помноженное на отсутсвие опыта и общую бестолковость, я реально считаю злом. Просто делать дела с такими дамами - это настоящая рулетка и сидение на пороховой бочке. Вы же сами обрисовали этот тип девушек :)

Ответить
Развернуть ветку
vic buynoff

С некоторыми джентльменами тоже невозможно, однако же их никто на пороховую бочку не сажает.

Ответить
Развернуть ветку
Артур Шигабутдинов

Ты сексист?

Ответить
Развернуть ветку
Сергей Михельсон

Причем тут сексист? Это же не я придумал такой типаж. Он есть и автор подчеркнул это.

Ответить
Развернуть ветку
Влад Ижевский

Для таких как вы скоро реализуют метод оплодотворения в мужском теле. Хотите рожать? Будете рожать :)

Ответить
Развернуть ветку
AK

Если я все верно понял из ваших выводов:

1) А что дальше? То есть вот я вижу картину: люди постят это, меньше постят вот это, больше делают это и меньше делают вот это. Я ведь верно понял, что вы собираете миллиарды петабайт данных и структурируете их в "общую" картину по конкретному запросу? По сути, как мне кажется, этого мало. То есть, если (повторюсь), я все верно понял из вашей статьи, результатом работы вашего алгоритма станет либо "опровержение" моих данных, либо "подтверждение" моих данных, либо "дополнение" моих данных. Совсем другими словами: на текущий момент вы снимаете с меня анализ аудитории. То есть это супер круто, наверное, для молодых проектов, где с этим еще надо определиться. А чем это может быть полезно для бизнеса, который существует 5-10-15 лет? Что-то революционно нового я пойму? Вот смотрите:

Обычные люди
Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Instagram. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.

Я до вашей статьи думал, что их 60%, условно, но что мне даст цифра в 40%? Это, наверное, супер крутой показатель для бизнеса уровня M.Video, а для МСБ это уже ничего не даст. Хотя, конечно, ваш проект больше для большого бизнеса должен подходить.

2) С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza. Вот это очень круто, а можно в вашем случае увязать, кто из тех 4%, кто читает БКС Премьер и Минпромторг подписывается на Дудя? Это ж самый сок. То есть круто разложить аудиторию на классический ABC.

3) Если данных для обработки так много, можно ли плясать от обратного? От базы покупателей? Вот у меня есть ФИО, почта, телефон, паспорт, допустим, а IG нет или я его не знаю. Вот имею я 10 000 покупателей с конкретным набором данных, что с этим можно сделать? Например, в моем бизнесе, подписчики в IG - вообще никак не относятся с реальными покупателями. Наш IG - имиджевый и нишевый, наши клиенты на такое не подписываются. Такая специфика. А вот проблема с тем, что я имея больше 10 лет опыта в коммерции и маркетинге не понимаю, как мне выходить на свою аудиторию в интернете, меня очень беспокоит, чувствую себя ретроградным меркурием и динозавром.

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Много интересных вопросов, спасибо!

По порядку:

1. Если говорить об исследовании аудиторий, то для бизнеса, который существует уже много лет, как раз полезно видеть динамику для каждого сегмента клиентов. Интересы людей быстро меняются.
Плюс можно решать совсем прикладные задачи: подбирать блогеров, анализировать результаты рекламных кампаний.
Пока что никакой революции, но жизнь существенно улучшает. 

2. Действительно, для крупного бизнеса пользы будет больше. Рост показателей даже на условные 1-5% для масштабов М.Видео или PepsiCo – гораздо интереснее, чем для МСБ.

3. Да, разложить аудиторию по набору условий можно, в этом вся прелесть. Для статьи решили разделить именно по контенту, чтобы всем было интересно.

4. Аудиторию можно находить по-разному, зависит от специфики бизнеса. Чем именно вы занимаетесь? 

Ответить
Развернуть ветку
Anjey Anjey

Интересен ответ на 4 вопрос. Можете накидать варианты?

Ответить
Развернуть ветку
Влад Ижевский

Скучаю по старому доброму маркетингу на листочке, с неизвестным результатом и безграничных бюджетах :)

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Наоборот, круто же! Точное планирование, будущее, все дела. 

Ответить
Развернуть ветку
Валерий Иотченко

Смешно шутите))) Как вы "запланируете" следующий вирус? Никто из нас не знает, что будет через минуту и Аннушки льют масло...

Ответить
Развернуть ветку
Кирилл Петровский
большинство читает Юрия Дудя

🥴

Ответить
Развернуть ветку
Влад Ижевский

Так или иначе, на Ютубе Дудь нечто первого канала для молодого поколения.

Ответить
Развернуть ветку
Ivan Vishnyakov

По осям х и у расположена семантика.
Интересные вещи происходят, когда семантика равна 10, а я и не знал

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Всё верно: оцениваем посты по темам, потом отображаем на плоскости.
Каждая ось соответствует именно семантике.  

Ответить
Развернуть ветку
Ivan Vishnyakov

Я не понимаю что вы написали

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Можно проще: мы выражаем числами содержание каждого поста. 

Ответить
Развернуть ветку
Ivan Vishnyakov

Все я понял. К уровню вашего матанализа вопросов не имею

Ответить
Развернуть ветку
Антон Васильков

Хм, а вы разве математик? Тогда бы вы знали счёт древних шизов

Ответить
Развернуть ветку
Ivan Vishnyakov

Это настолько тонко... такое тонкое... тонкий математический инструмент. С ним можно всю семантику по осям разложить

Ответить
Развернуть ветку
Антон Васильков

Ну, не спорю. Главное не забыть нормирование, лучше всего подойдёт метрика Эскобара от ноля до целкового

Ответить
Развернуть ветку
Ivan Vishnyakov

От жучка до хомячка полтора воротничка

Раскладываем инстаграм по базисным векторам

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Эх, ну ладно 

Ответить
Развернуть ветку
AK

Офигенно. Ещё немного и будет совсем пушка. Кстати, мне интересно попробовать вашу историю, только проблема в том, что классический профиль моей ЦА выглядит так: 0 публикаций, 34 подписчиков, 19 подписок и я уже не первый год нахожусь в депрессии на этот счёт, когда маркетинг уже ускакал далеко вперёд, а мне приходится брать бумажку и делать традиционный маркетинг, а ещё делать раскладки в Азбуке Вкуса, потому что это окупается тысячекратно , такая вот жопа )

Ответить
Развернуть ветку
Димитрий Лесневский
Автор

Спасибо за комментарий! А что предложите добавить, чтобы была совсем пушка? 

Ответить
Развернуть ветку
Компания Свифт

Доброго времени суток всем! Как инженеру-механику изложенное выше мне сравнительно понятно и более того, скажу что направление исследований весьма полезно и перспективно для многих заинтересованных. Но, есть люди, которые не очень хорошо владеют русским языком, в связи с чем вопрос к авторам: где ознакомиться с вашими работами на английском языке, в смысле в переводе? С почтением и уважением...

Ответить
Развернуть ветку
38 комментариев
Раскрывать всегда