Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

С помощью алгоритмов тематического моделирования я изучил пользователей, подписанных на страницу vc.ru в Insta****, и узнал много интересного. Например, как самоизоляция влияет на поведение и на какие две группы делятся предприниматели.

Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

Привет! Меня зовут Дима Лесневский и я сооснователь компании Optia. Мы с командой помогаем маркетологам принимать решения на основе данных, отслеживать тренды и понимать аудиторию. Всё это — с помощью алгоритмов машинного обучения.

Идеальный мир рекламы и маркетинга, который я представлял в университете, выглядел изящно и понятно. Изучаешь аудиторию, строишь и тестируешь гипотезы, масштабируешь удачные решения. Никаких субъективных оценок, только логика и расчёты. Реальность оказалась сложнее.

Начал с позиции джуниора в рекламном агентстве. Осмыслять происходящее было некогда: нужно собирать и переделывать презентации, а потом заниматься другими презентациями. Слайды с методологией падали в братскую могилу после заглушки «спасибо за внимание», а кампании шли своим путём.

Постепенно рос до синиора и дальше. Через несколько лет работал уже над маржинальностью всего отдела, мотивацией, развитием бизнеса. Следил за тем, чтобы предложения агентства действительно решали задачи клиентов и приносили прибыль компании.

Чтобы уложиться в дедлайны и бюджет, всегда приходилось балансировать между тремя подходами к аналитике:

  1. Привлечь дорогого сотрудника или даже исследовательскую компанию
  2. Использовать обученного джуниора и доступные недорогие инструменты
  3. Придумать красивую историю, а потом найти обоснование

Поиск равновесия повышал личные расходы на психолога, потому что первый вариант убивает маржинальность, второй занимает много времени, а третий – достаточно лицемерный. Без данных работают талант и интуиция отдельных людей, систему построить сложно.

Мне хотелось лучше понимать портрет аудитории, быстро находить тренды, иметь под рукой все нужные срезы информации. Тогда я обратился к приятелю, который руководил отделом data science в ИТ-стартапе Dbrain. Я рассказал ему, с какими проблемами сталкиваюсь в работе, и он предложил объединить наши усилия — его знания в области машинного обучения и мой опыт в маркетинге. Вместе мы решили разработать решение и протестировать его на клиентах агентства.

Оказалось, что совместная экспертиза даёт отличный результат. Технологии сэкономили 20% бюджета крупных рекламных кампаний, помогли подготовить и выиграть несколько тендеров.

Получив первый положительный фидбек, мы решили развиваться дальше. Создали свою компанию, назвали её Optia и стали брать больше проектов по решению маркетинговых задач с помощью технологий.

На этом лирическая часть заканчивается. Сегодня, чтобы показать, как работает наш продукт, мы решили проанализовать аудиторию vc.ru, а именно — пользователей, подписанных на новостной портал в Insta***.

Методология

В выборке подписчиков vc.ru — 29 тысяч пользователей, 5 миллионов постов и 12 миллионов социальных связей. Нет никакой магии, но нужно внимательно относиться к деталям и понимать, какие алгоритмы лучше решают конкретную задачу.

Основное правило работы с данными: мусор на входе — мусор на выходе. Поэтому пайплайн начинается с серии классификаторов, фильтрующих бессодержательный контент.

Дальше на чистых данных работают алгоритмы тематического моделирования, кластеризации и анализа социальных связей. Система строит пространство признаков, которое объясняет содержание постов, а на более высоком уровне — описывает пользователей. После этого можно оставить категории, которые представляют интерес:

Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

На графике — все посты в семантическом пространстве. Точки соответствуют постам, координаты X и Y показывают семантику, цвет – наиболее выраженную тему для наглядности. На самом деле каждый пост определяется взвешенной комбинацией тем.

Большая часть постов стягивается к центру пространства, а разные по смыслу темы хорошо разделяются (например, бизнес и еда). Что интересно: посты про бизнес и саморазвитие визуально распадаются на несколько отдельных кластеров. С ними разберёмся чуть позже, а сначала оценим ситуацию в целом.

Аудитория vc.ru

Сравним усреднённого подписчика vc.ru с усреднённым пользователем Insta****. Читатели vc.ru публикуют у себя больше контента о саморазвитии, путешествиях и бизнесе, меньше говорят о моде, косметике и спорте. Учитывая специфику издания, ничего необычного.

Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

Теперь смотрим, что изменилось в их поведении за последние три месяца. С приходом коронакризиса пользователи стали меньше писать о путешествиях и больше — о работе и уходе за собой в условиях самоизоляции (косметика, спорт, психология).

Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza.

Итог: в спокойные времена читатели vc.ru рассказывают о путешествиях и саморазвиваются, читают блоги предпринимателей и тематические медиа. В период, когда аэропорты закрыты, пользователи сфокусировались на работе и себе.

При помощи обычных сервисов аналитики и ручной обработки больше узнать не получится. Остаётся добавить информацию из медиакита, собрать красивые цифры для отчёта и закончить.

Но мы решили копнуть глубже и разобраться, что стоит за цифрами.

Копаем глубже

Аудитория vc.ru — абстрактная категория. На аккаунт подписываются самые разные люди, которых нельзя уложить в набор из десяти усреднённых параметров. Средние значения — это в принципе условность, которая не всегда описывает реальность.

Нужно изучать внимательнее, чтобы не смешивать всех в одну кучу. Здесь на помощь приходит кластерный анализ на основе контента, который публикуют пользователи. Результат выглядит так:

Дудь, ретроградный Меркурий и еда: анализ данных в Insta**** помог мне составить портрет типичного подписчика vc.ru

На этот раз каждая точка — это пользователь, а координаты — проекция семантического пространства на плоскость. График нужен не для того, чтобы оценить качество кластеризации, а чтобы понять близость групп пользователей и их вариативность. Сейчас разберём кластеры аудитории и станет понятнее.

Обычные люди

Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Insta****. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.

Модный диджитал

Другая группа — 25% — пишет обо всём, почти как предыдущая. Больше всего — о путешествиях, моде, саморазвитии и бизнесе. Важное отличие в том, кого они читают. Аффинитивные для группы аккаунты — агентство Setters, Алина Чичина, Art Basel, Wonderzine, а еще ретроградный Меркурий. Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств Москвы или Санкт-Петербурга.

Два сорта предпринимателей

Если помните, тематическая модель разделила посты про бизнес и саморазвитие на несколько различимых подгрупп. Разделение легко объяснить, если внимательнее изучить авторов этих постов.

Оба кластера пишут о бизнесе и саморазвитии. Разница в том, на кого они подписаны. Одни — 15% — читают Тони Робинса, Бизнес-Молодость и курсы по копирайтингу, а другие — 4% — Минпромторг, БКС Премьер и технопарк Сколково.

Прочие

Ещё остались 10% увлечённых путешественников, 3% SMM-щиков, и пара процентов эстетов, которые пишут исключительно о стиле и читают AD Russia.

Моя любимая группа — 2% пользователей, которые пишут исключительно о еде и подписаны на рестораны и страницы с рецептами. Сплошное чревоугодие.

Выводы

Хотелось бы найти ёмкое предложение, которым можно описать всю аудиторию и подытожить анализ. Но не получится — обобщать и усреднять данные, как часто делают сервисы аналитики, неправильно. Кластеризация это наглядно показывает.

В светлом будущем, которое мы в Optia хотим приблизить, усреднённых значений будет меньше, а разумных действий — больше. Цель вполне достижимая, если правильно обращаться с данными.

Технологии решают множество проблем. Можно подбирать блогеров для рекламных кампаний и планировать эффективность размещений. Можно находить тренды и планировать ситуативные кампании, которые точно попадут в сердце аудитории. В конце концов, можно просто синхронизировать проектную команду объективной оценкой ситуации.

Судя по данным, примерно 40% аудитории потенциально заинтересуются этой статьей, а один процент захочет протестировать технологии и напишет на [email protected].

52
41 комментарий

Спасибо за статью! Очень интересные данные. Особенно позабавило статистическое разделение вонаби и настоящих предпринимателей 🦄

9
Ответить

Спасибо! Самое интересное — кластеризовали только по контенту, различия в подписках в модель не закладывали. Разница проявилась практически сама собой 

5
Ответить

Доброго дня. Расскажите какой стек использовали для этого проекта (Какие библиотеки), что что Python) Спасибо! Сколько ушло человеко-часов на этот проект?

4
Ответить

Меня выпустили из бункера и сказали ответить по матчасти. Отвечаю: по DL стеку python / pytorch, высоконагруженные части на Go. Клиентскую аппу сервим на Vue + FastAPI, данные живут в Clickhouse. Человекочасы в джире не трекали, мы по LeanDS работаем, команде зашло. В 4 разработчика за пол года уложились. Спасибо за интересный вопрос (:

10
Ответить

Почему разделение по тематикам так напоминает Крым? Неужели все мы здесь из Украины?)

4
Ответить

Это такой тест Роршаха: каждый видит отражение своей личности. 

На самом деле, просто особенность метода. 

4
Ответить

Хороший материал. Спасибо!

4
Ответить