Дудь, ретроградный Меркурий и еда: анализ данных в Instagram помог мне составить портрет типичного подписчика vc.ru
С помощью алгоритмов тематического моделирования я изучил пользователей, подписанных на страницу vc.ru в Instagram, и узнал много интересного. Например, как самоизоляция влияет на поведение и на какие две группы делятся предприниматели.
Привет! Меня зовут Дима Лесневский и я сооснователь компании Optia. Мы с командой помогаем маркетологам принимать решения на основе данных, отслеживать тренды и понимать аудиторию. Всё это — с помощью алгоритмов машинного обучения.
Идеальный мир рекламы и маркетинга, который я представлял в университете, выглядел изящно и понятно. Изучаешь аудиторию, строишь и тестируешь гипотезы, масштабируешь удачные решения. Никаких субъективных оценок, только логика и расчёты. Реальность оказалась сложнее.
Начал с позиции джуниора в рекламном агентстве. Осмыслять происходящее было некогда: нужно собирать и переделывать презентации, а потом заниматься другими презентациями. Слайды с методологией падали в братскую могилу после заглушки «спасибо за внимание», а кампании шли своим путём.
Постепенно рос до синиора и дальше. Через несколько лет работал уже над маржинальностью всего отдела, мотивацией, развитием бизнеса. Следил за тем, чтобы предложения агентства действительно решали задачи клиентов и приносили прибыль компании.
Чтобы уложиться в дедлайны и бюджет, всегда приходилось балансировать между тремя подходами к аналитике:
- Привлечь дорогого сотрудника или даже исследовательскую компанию
- Использовать обученного джуниора и доступные недорогие инструменты
- Придумать красивую историю, а потом найти обоснование
Поиск равновесия повышал личные расходы на психолога, потому что первый вариант убивает маржинальность, второй занимает много времени, а третий – достаточно лицемерный. Без данных работают талант и интуиция отдельных людей, систему построить сложно.
Мне хотелось лучше понимать портрет аудитории, быстро находить тренды, иметь под рукой все нужные срезы информации. Тогда я обратился к приятелю, который руководил отделом data science в ИТ-стартапе Dbrain. Я рассказал ему, с какими проблемами сталкиваюсь в работе, и он предложил объединить наши усилия — его знания в области машинного обучения и мой опыт в маркетинге. Вместе мы решили разработать решение и протестировать его на клиентах агентства.
Оказалось, что совместная экспертиза даёт отличный результат. Технологии сэкономили 20% бюджета крупных рекламных кампаний, помогли подготовить и выиграть несколько тендеров.
Получив первый положительный фидбек, мы решили развиваться дальше. Создали свою компанию, назвали её Optia и стали брать больше проектов по решению маркетинговых задач с помощью технологий.
На этом лирическая часть заканчивается. Сегодня, чтобы показать, как работает наш продукт, мы решили проанализовать аудиторию vc.ru, а именно — пользователей, подписанных на новостной портал в Instagram.
Методология
В выборке подписчиков vc.ru — 29 тысяч пользователей, 5 миллионов постов и 12 миллионов социальных связей. Нет никакой магии, но нужно внимательно относиться к деталям и понимать, какие алгоритмы лучше решают конкретную задачу.
Основное правило работы с данными: мусор на входе — мусор на выходе. Поэтому пайплайн начинается с серии классификаторов, фильтрующих бессодержательный контент.
Дальше на чистых данных работают алгоритмы тематического моделирования, кластеризации и анализа социальных связей. Система строит пространство признаков, которое объясняет содержание постов, а на более высоком уровне — описывает пользователей. После этого можно оставить категории, которые представляют интерес:
На графике — все посты в семантическом пространстве. Точки соответствуют постам, координаты X и Y показывают семантику, цвет – наиболее выраженную тему для наглядности. На самом деле каждый пост определяется взвешенной комбинацией тем.
Большая часть постов стягивается к центру пространства, а разные по смыслу темы хорошо разделяются (например, бизнес и еда). Что интересно: посты про бизнес и саморазвитие визуально распадаются на несколько отдельных кластеров. С ними разберёмся чуть позже, а сначала оценим ситуацию в целом.
Аудитория vc.ru
Сравним усреднённого подписчика vc.ru с усреднённым пользователем Instagram. Читатели vc.ru публикуют у себя больше контента о саморазвитии, путешествиях и бизнесе, меньше говорят о моде, косметике и спорте. Учитывая специфику издания, ничего необычного.
Теперь смотрим, что изменилось в их поведении за последние три месяца. С приходом коронакризиса пользователи стали меньше писать о путешествиях и больше — о работе и уходе за собой в условиях самоизоляции (косметика, спорт, психология).
С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza.
Итог: в спокойные времена читатели vc.ru рассказывают о путешествиях и саморазвиваются, читают блоги предпринимателей и тематические медиа. В период, когда аэропорты закрыты, пользователи сфокусировались на работе и себе.
При помощи обычных сервисов аналитики и ручной обработки больше узнать не получится. Остаётся добавить информацию из медиакита, собрать красивые цифры для отчёта и закончить.
Но мы решили копнуть глубже и разобраться, что стоит за цифрами.
Копаем глубже
Аудитория vc.ru — абстрактная категория. На аккаунт подписываются самые разные люди, которых нельзя уложить в набор из десяти усреднённых параметров. Средние значения — это в принципе условность, которая не всегда описывает реальность.
Нужно изучать внимательнее, чтобы не смешивать всех в одну кучу. Здесь на помощь приходит кластерный анализ на основе контента, который публикуют пользователи. Результат выглядит так:
На этот раз каждая точка — это пользователь, а координаты — проекция семантического пространства на плоскость. График нужен не для того, чтобы оценить качество кластеризации, а чтобы понять близость групп пользователей и их вариативность. Сейчас разберём кластеры аудитории и станет понятнее.
Обычные люди
Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Instagram. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.
Модный диджитал
Другая группа — 25% — пишет обо всём, почти как предыдущая. Больше всего — о путешествиях, моде, саморазвитии и бизнесе. Важное отличие в том, кого они читают. Аффинитивные для группы аккаунты — агентство Setters, Алина Чичина, Art Basel, Wonderzine, а еще ретроградный Меркурий. Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств Москвы или Санкт-Петербурга.
Два сорта предпринимателей
Если помните, тематическая модель разделила посты про бизнес и саморазвитие на несколько различимых подгрупп. Разделение легко объяснить, если внимательнее изучить авторов этих постов.
Оба кластера пишут о бизнесе и саморазвитии. Разница в том, на кого они подписаны. Одни — 15% — читают Тони Робинса, Бизнес-Молодость и курсы по копирайтингу, а другие — 4% — Минпромторг, БКС Премьер и технопарк Сколково.
Прочие
Ещё остались 10% увлечённых путешественников, 3% SMM-щиков, и пара процентов эстетов, которые пишут исключительно о стиле и читают AD Russia.
Моя любимая группа — 2% пользователей, которые пишут исключительно о еде и подписаны на рестораны и страницы с рецептами. Сплошное чревоугодие.
Выводы
Хотелось бы найти ёмкое предложение, которым можно описать всю аудиторию и подытожить анализ. Но не получится — обобщать и усреднять данные, как часто делают сервисы аналитики, неправильно. Кластеризация это наглядно показывает.
В светлом будущем, которое мы в Optia хотим приблизить, усреднённых значений будет меньше, а разумных действий — больше. Цель вполне достижимая, если правильно обращаться с данными.
Технологии решают множество проблем. Можно подбирать блогеров для рекламных кампаний и планировать эффективность размещений. Можно находить тренды и планировать ситуативные кампании, которые точно попадут в сердце аудитории. В конце концов, можно просто синхронизировать проектную команду объективной оценкой ситуации.
Судя по данным, примерно 40% аудитории потенциально заинтересуются этой статьей, а один процент захочет протестировать технологии и напишет на [email protected].
Спасибо за статью! Очень интересные данные. Особенно позабавило статистическое разделение вонаби и настоящих предпринимателей 🦄
Спасибо! Самое интересное — кластеризовали только по контенту, различия в подписках в модель не закладывали. Разница проявилась практически сама собой
Доброго дня. Расскажите какой стек использовали для этого проекта (Какие библиотеки), что что Python) Спасибо! Сколько ушло человеко-часов на этот проект?
Меня выпустили из бункера и сказали ответить по матчасти. Отвечаю: по DL стеку python / pytorch, высоконагруженные части на Go. Клиентскую аппу сервим на Vue + FastAPI, данные живут в Clickhouse. Человекочасы в джире не трекали, мы по LeanDS работаем, команде зашло. В 4 разработчика за пол года уложились. Спасибо за интересный вопрос (:
Почему разделение по тематикам так напоминает Крым? Неужели все мы здесь из Украины?)
Это такой тест Роршаха: каждый видит отражение своей личности.
На самом деле, просто особенность метода.
Хороший материал. Спасибо!
И комментарий достойный!
Я в шоке. Кто бы мог предположить?
Предполагать все умеют.
А вот проверить и сказать точно — мало у кого получается.
Я на самоизоляции стал меньше мечтать о путешествиях на 14.58%, и стал больше бухать на 27.31%. Как тебе такое, Димас?
Честно говоря, звучит грустно :(
Всё будет хорошо!
За прогноз ответишь )
Можно легко визуализировать 25-летнюю сотрудницу любого из digital-агентств - лучше бы детей рожали, столько от них бед...
Ну что же вы так грубо
Что плохого рожать детей?) А вот ЧСВ, помноженное на отсутсвие опыта и общую бестолковость, я реально считаю злом. Просто делать дела с такими дамами - это настоящая рулетка и сидение на пороховой бочке. Вы же сами обрисовали этот тип девушек :)
С некоторыми джентльменами тоже невозможно, однако же их никто на пороховую бочку не сажает.
Ты сексист?
Причем тут сексист? Это же не я придумал такой типаж. Он есть и автор подчеркнул это.
Для таких как вы скоро реализуют метод оплодотворения в мужском теле. Хотите рожать? Будете рожать :)
Если я все верно понял из ваших выводов:
1) А что дальше? То есть вот я вижу картину: люди постят это, меньше постят вот это, больше делают это и меньше делают вот это. Я ведь верно понял, что вы собираете миллиарды петабайт данных и структурируете их в "общую" картину по конкретному запросу? По сути, как мне кажется, этого мало. То есть, если (повторюсь), я все верно понял из вашей статьи, результатом работы вашего алгоритма станет либо "опровержение" моих данных, либо "подтверждение" моих данных, либо "дополнение" моих данных. Совсем другими словами: на текущий момент вы снимаете с меня анализ аудитории. То есть это супер круто, наверное, для молодых проектов, где с этим еще надо определиться. А чем это может быть полезно для бизнеса, который существует 5-10-15 лет? Что-то революционно нового я пойму? Вот смотрите:
Обычные люди
Самый крупный кластер — 40% — пользователи, очень похожие на усреднённый Instagram. Пишут о путешествиях, немного о стиле, делятся личным опытом и рассказывают о саморазвитии (за последние три месяца — на 14% активнее). Подписаны на аккаунты с советами по личной эффективности, воспитанию детей и шоппингом. Если представите себе активную маму из крупного города — не ошибётесь.
Я до вашей статьи думал, что их 60%, условно, но что мне даст цифра в 40%? Это, наверное, супер крутой показатель для бизнеса уровня M.Video, а для МСБ это уже ничего не даст. Хотя, конечно, ваш проект больше для большого бизнеса должен подходить.
2) С контентом всё понятно. Теперь посмотрим, на кого ещё подписываются пользователи vc.ru. Тут тоже без сюрпризов: большинство читает Юрия Дудя, Олега Тинькова, журнал одноимённого банка, издания Forbes, National Geographic и Meduza. Вот это очень круто, а можно в вашем случае увязать, кто из тех 4%, кто читает БКС Премьер и Минпромторг подписывается на Дудя? Это ж самый сок. То есть круто разложить аудиторию на классический ABC.
3) Если данных для обработки так много, можно ли плясать от обратного? От базы покупателей? Вот у меня есть ФИО, почта, телефон, паспорт, допустим, а IG нет или я его не знаю. Вот имею я 10 000 покупателей с конкретным набором данных, что с этим можно сделать? Например, в моем бизнесе, подписчики в IG - вообще никак не относятся с реальными покупателями. Наш IG - имиджевый и нишевый, наши клиенты на такое не подписываются. Такая специфика. А вот проблема с тем, что я имея больше 10 лет опыта в коммерции и маркетинге не понимаю, как мне выходить на свою аудиторию в интернете, меня очень беспокоит, чувствую себя ретроградным меркурием и динозавром.
Много интересных вопросов, спасибо!
По порядку:
1. Если говорить об исследовании аудиторий, то для бизнеса, который существует уже много лет, как раз полезно видеть динамику для каждого сегмента клиентов. Интересы людей быстро меняются.
Плюс можно решать совсем прикладные задачи: подбирать блогеров, анализировать результаты рекламных кампаний.
Пока что никакой революции, но жизнь существенно улучшает.
2. Действительно, для крупного бизнеса пользы будет больше. Рост показателей даже на условные 1-5% для масштабов М.Видео или PepsiCo – гораздо интереснее, чем для МСБ.
3. Да, разложить аудиторию по набору условий можно, в этом вся прелесть. Для статьи решили разделить именно по контенту, чтобы всем было интересно.
4. Аудиторию можно находить по-разному, зависит от специфики бизнеса. Чем именно вы занимаетесь?
Интересен ответ на 4 вопрос. Можете накидать варианты?
Скучаю по старому доброму маркетингу на листочке, с неизвестным результатом и безграничных бюджетах :)
Наоборот, круто же! Точное планирование, будущее, все дела.
Смешно шутите))) Как вы "запланируете" следующий вирус? Никто из нас не знает, что будет через минуту и Аннушки льют масло...
🥴
Так или иначе, на Ютубе Дудь нечто первого канала для молодого поколения.
По осям х и у расположена семантика.
Интересные вещи происходят, когда семантика равна 10, а я и не знал
Всё верно: оцениваем посты по темам, потом отображаем на плоскости.
Каждая ось соответствует именно семантике.
Я не понимаю что вы написали
Можно проще: мы выражаем числами содержание каждого поста.
Все я понял. К уровню вашего матанализа вопросов не имею
Хм, а вы разве математик? Тогда бы вы знали счёт древних шизов
Это настолько тонко... такое тонкое... тонкий математический инструмент. С ним можно всю семантику по осям разложить
Ну, не спорю. Главное не забыть нормирование, лучше всего подойдёт метрика Эскобара от ноля до целкового
От жучка до хомячка полтора воротничка
Раскладываем инстаграм по базисным векторам
Эх, ну ладно
Офигенно. Ещё немного и будет совсем пушка. Кстати, мне интересно попробовать вашу историю, только проблема в том, что классический профиль моей ЦА выглядит так: 0 публикаций, 34 подписчиков, 19 подписок и я уже не первый год нахожусь в депрессии на этот счёт, когда маркетинг уже ускакал далеко вперёд, а мне приходится брать бумажку и делать традиционный маркетинг, а ещё делать раскладки в Азбуке Вкуса, потому что это окупается тысячекратно , такая вот жопа )
Спасибо за комментарий! А что предложите добавить, чтобы была совсем пушка?
Доброго времени суток всем! Как инженеру-механику изложенное выше мне сравнительно понятно и более того, скажу что направление исследований весьма полезно и перспективно для многих заинтересованных. Но, есть люди, которые не очень хорошо владеют русским языком, в связи с чем вопрос к авторам: где ознакомиться с вашими работами на английском языке, в смысле в переводе? С почтением и уважением...