Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Вдруг стало интересно, как часто пишут, комментируют и о чем в основном статьи в этом разделе. Вооружившись Python, я запарсил 3000 статей. А также комментарии и лайки, чтобы ответить на ряд интересующих меня вопросов. В этой статье мы посмотрим на общие медиапоказатели, динамику, когортный анализ и анализ текста. А так же поиграем в игру!

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Тут будет три блока:

  • Общие медиапоказатели
  • Анализ текста
  • Анализ комментариев

Общие медиапоказатели

Вычисляем, сколько в среднем собирает одна статья.

img_count — количество фотографий, text_count — количество слов в статье, block len: количество блоков. 25, 50, 75 — процентили. Все картинки на телефоне можно увели
img_count — количество фотографий, text_count — количество слов в статье, block len: количество блоков. 25, 50, 75 — процентили. Все картинки на телефоне можно увели

Видно, что достаточно большой разброс STD есть и большинство распределений смещено влево. Например, лайки: среднее — 10, но при этом процентиль 50 равен 5. Это означает, что половина постов собирает не больше 5 лайков. Процентиль 75 равен 11, значит, 75 процентов статей набирают не более 11 лайков. Это говорит о том, что среди статей есть много неудачных, но при этом есть статьи, которые значительно опережают другие.

Можно посмотреть на гистограмму распределения лайков:

По вертикали частота, по горизонтали значения по кол-ву лайков
По вертикали частота, по горизонтали значения по кол-ву лайков

Около 600 статей собрало 0 лайков. 😟 Основная масса статей слева на графике.

Вот, например, распределение по размеру текста:

По вертикали частота, по горизонтали значения по кол-ву слов
По вертикали частота, по горизонтали значения по кол-ву слов

Похоже, тут гистограммы не очень интересны. Найти процентили, чтобы определять результат, гораздо лучше. Повторим, что число процентиля показывает, какой процент наблюдений не превышает это число. Например, посмотрите на таблицу ниже, если ваша статья набрала больше 17к просмотров, значит, вы входите в топ-1% по просмотрам.

Внимание! Это не сводная таблица. Столбики не связаны между собой. Они связаны только с процентами слева.
Внимание! Это не сводная таблица. Столбики не связаны между собой. Они связаны только с процентами слева.

Еще можно сказать:

  • 10 процентов статей имеют меньше 253 слов в тексте;
  • 90 процентов статей не набирают больше 23 лайков;
  • 80 процентов статей не набирают больше 9 комментариев;
  • 1 процент статей имеет более 31 картинки (1 статья входит в топ-1% по этому показателю) .

Напоследок можно кинуть в корреляцию, но тут, увы, ничего интересного. Достаточно очевидно, что лайки, комменты, просмотры влияют друг на друга.

Хотя у психологов корреляция в 0,18 считается значимой, и можно было сказать что большие тексты лайкают больше. Но мы не такие, правда?
Хотя у психологов корреляция в 0,18 считается значимой, и можно было сказать что большие тексты лайкают больше. Но мы не такие, правда?

Найдем топ-статьи

По лайкам

img_count — кол-во картинок,  text_count -- кол-во слов, activ/view -- Все активности делить на просмотры. Статьи легко найти через поиск на vc по названию.
img_count — кол-во картинок,  text_count -- кол-во слов, activ/view -- Все активности делить на просмотры. Статьи легко найти через поиск на vc по названию.

По просмотрам

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Найдем топ авторов

Данные у нас примерно за полгода. С конца мая до середины декабря 2022-го было 1219 авторов.

Топ по лайкам

count — количество статей, like, view, comments — суммы, activ/view -- Все активности делить на просмотры. Статьи легко найти через поиск на vc по названию.
count — количество статей, like, view, comments — суммы, activ/view -- Все активности делить на просмотры. Статьи легко найти через поиск на vc по названию.

Топ по просмотрам

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Топ по количеству комментариев

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

А как часто авторы пишут?

Посчитаем процентили по количеству публикаций за полгода. Тут по горизонтали процентиль, по вертикали — количество публикаций.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

10 процентов авторов за полгода написали больше 5 статей. 1 процент авторов сделал больше 18 статей — профессионалы.

Что там в динамике

В какое время выходят статьи и в какой день недели?

Строчки — часы, столбцы — день недели, где 0 — понедельник. Внутри количество публикаций.

Это крест? В основном публикации выходят в рабочее время.
Это крест? В основном публикации выходят в рабочее время.

Разрежем на месяца

Все замечательно. Комментарии, лайки, количество и качество растут!
Все замечательно. Комментарии, лайки, количество и качество растут!

О чем они там пишут?

Сейчас будет немного экспериментальная методика, которую я придумал для своего приложения Awake. Мы возьмем все тексты и разобьем их на слова. Добавим их в таблицу. Каждое слово будет получать статистику из статьи по лайкам, просмотрам и комментариям. Также каждое слово мы обработаем библиоткой pymorphy2, которая приведет слова в словарную форму, это «клиенты» в «клиент». А также скажет, какая грамма. Граммы — это существительные, прилагательные, глаголы, предлоги и т. д.

Вот такая таблица получается на 3 миллиона строк.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Теперь мы можем развлекаться с этой таблицей. Отфильтруем все слова по существительным, сделаем групировку по каждому слову, чтобы найти самые популярные.

<p>Count — количество употреблений этого слова. activ/view — сумма лайков и комментариев делить на показы. </p>

Count — количество употреблений этого слова. activ/view — сумма лайков и комментариев делить на показы.

Достаточно ожидаемый список слов. Каждый столбец в этой таблице показывает средние медиапоказатели по каждому слову. Например, статьи со словом «клиент» в среднем набирали 10 лайков, 7 комментариев, 1058 просмотров.

А статьи со словом «год» набирали в среднем больше просмотров, чем другие статьи. Статьи со словом «товар» имели в среднем больше картинок. Статьи со словом «сайт» имели больше activ/view.

Прилагательные

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Попробуем вытащить интересные термины и поиграть в игру!

Что чаще употреблялось: «SMM», «SEO» или «контекст»?

«Контекст» и «РСЯ» — большие показатели по activ/view. «SMM» лидирует по просмотрам. «Метрика» чаще из этого списка слов употреблялась.
«Контекст» и «РСЯ» — большие показатели по activ/view. «SMM» лидирует по просмотрам. «Метрика» чаще из этого списка слов употреблялась.

Какая компания популярнее: «Яндекс» или Google?

<p>«Яндекс» победил. </p>

«Яндекс» победил.

Какие термины популярнее? CTR или ROMI? Или, может, вдруг CPA?

Увы —CTR. Статьи со словом LTV длиннее всех. CPA — больший отклик по лайкам. ROMI и ROI — больший эффект по activ/view.
Увы —CTR. Статьи со словом LTV длиннее всех. CPA — больший отклик по лайкам. ROMI и ROI — больший эффект по activ/view.

Что там по сайтам? Wordpress или Tilda?

«Битрикс», возможно, смешался с CRM-системой, но в любом случае не очень интересен публике. Но так WordPress все еще популярнее и интереснее Tilda до сих пор. Никто не написал о Gatsby JS — очень зря, ведь это <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fevilunion.com%2Fgatsby-js&postId=580754" rel="nofollow noreferrer noopener" target="_blank">очень быстрые сайты</a>.
«Битрикс», возможно, смешался с CRM-системой, но в любом случае не очень интересен публике. Но так WordPress все еще популярнее и интереснее Tilda до сих пор. Никто не написал о Gatsby JS — очень зря, ведь это очень быстрые сайты.

Какие слова еще стоит проверить, как думаете? Пишите в комментарии, добавим в часть 2.

Как же группируются слова?

Чтобы ответить на этот вопрос, мы воспользуемся алгоритмом TNSE.

TNSE — нелинейный алгоритм снижения размерности многомерных данных. Простыми словами: есть таблица с большим множеством столбцов, этот алгоритм преобразует таблицу с маленьким количеством столбцов так, что сохранится смысл в значениях, но значения станут абстрактными. В нашем случае это два столбца, которые мы отправим на Scatter plot. Этот прием используют аналитики, чтобы найти группировки в больших данных.

Сейчас будет немного сложно. Построим таблицу следующим образом. Будем брать каждую статью, забирать оттуда только существительные и находить 50 самых часто употребляемых и присваивать им рейтинг по «секретной» формуле. Это очень похоже на протоалгоритмы поисковых систем. После делаем кросс-таблицу, где по строкам слова, по столбцам статьи, а внутри рейтинг. В этой таблице только те слова, которые прошли в топ-50 из каждой статьи. Статьи, где меньше 5 лайков, не участвуют.

Вот небольшой кусок этой таблицы.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Таким образом в нашей матрице будут группировки слов в статьях, и мы отправим их в TNSE. Строим график где X, Y — абстрактные координаты слов, показывающие их близость, размер точки — частота упоминаний слов, цвет просто обычный KMeans для красоты.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Сколько вы видите группировок? Давайте увеличим и посмотрим поближе.

Кластер 1. Агентства рассказывают про свой опыт.
Кластер 1. Агентства рассказывают про свой опыт.
Кластер 2. Что-то про контент и соцсети.
Кластер 2. Что-то про контент и соцсети.
<p>Кластер 3. Фиолетовые точки — что-то про анализ.</p><p>Кластер 4. Желтые точки — не очень понятно. Возможно, отзывы об услугах и приложениях. </p>

Кластер 3. Фиолетовые точки — что-то про анализ.

Кластер 4. Желтые точки — не очень понятно. Возможно, отзывы об услугах и приложениях.

Кластер 5. Тут все просто — это про трафик.
Кластер 5. Тут все просто — это про трафик.
Кластер 6. Это про брендинг.
Кластер 6. Это про брендинг.
Кластер 7. Похоже, что это про сервисы.
Кластер 7. Похоже, что это про сервисы.
Кластер 8. Вот это, наверно, самый интересный сегмент — тут делятся опытом в процессах. 
Кластер 8. Вот это, наверно, самый интересный сегмент — тут делятся опытом в процессах. 
Кластер 9. Тут сложно, так как здесь самые популярные слова. Наверно, можно сказать, что это общее про маркетинг, продажи и бизнес.
Кластер 9. Тут сложно, так как здесь самые популярные слова. Наверно, можно сказать, что это общее про маркетинг, продажи и бизнес.

Вижу для себя направление, связанное с IT, — рассказывать про современные Web-разработки и Data Science для маркетологов. Кстати, рекомендую свой бесплатный курс «База IT для бизнеса за час».

Предполагаю, что кто-то захочет сделать график, где по вертикали будут лайки, по горизонтали — просмотры. Объем кружочка — количество упоминаний. Цвет — кластер.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Подсказка: чем выше точка, тем больше статьи с таким словом лайкали, чем правее, тем больше было охвата. Если смотреть на точки по вертикали, то можно увидеть темы, которые были одинаково популярны, но чем выше, тем больше было отклика. Например, статьи со словами «сайт» и «продвижение» получили одинаковый охват, но точка со словом «сайт» намного выше по вертикали и значит лайков было больше.

Комментарии

За полгода было 6729 комментаторов в разделе маркетинг, которые сделали 18850 комментариев.

Есть важный момент: я не до конца парсил все комменты, потому что это слишком долго и неудобно. Я собрал только первые два уровня глубины. Это значит, что вся статистика в реальности выше.

Топ-комментаторы

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Когда же все комментируют? В рабочее время? После работы? До работы?

0 — понедельник. Видны какие-то пики в обеденное время и ночное пребывание в выходные.
0 — понедельник. Видны какие-то пики в обеденное время и ночное пребывание в выходные.

Более сокращенная версия

Ну что тут можно сказать, после обеда интереснее комментировать. И строго в рабочее время 😂
Ну что тут можно сказать, после обеда интереснее комментировать. И строго в рабочее время 😂

Влияет ли время на длину комментария?

Ночью определенно больше.
Ночью определенно больше.

Наши любимые процентили по количеству слов в комментариях.

Около 20 процентов комментариев — больше 200 слов. Половина — меньше 85 слов. 1 процент — больше 1000 слов, что больше медианы по количеству слов самих статей.
Около 20 процентов комментариев — больше 200 слов. Половина — меньше 85 слов. 1 процент — больше 1000 слов, что больше медианы по количеству слов самих статей.

Когортный анализ

Сделаем когортный анализ.

Когортный анализ радует! Очень хороший след от когорт.

0 столбец — это комментаторы, которые появились первый раз в этом периоде. Остальные столбцы — это повторные комментарии, которые они оставили в следующих месяцах. По диагонали слева направо будет сумма за месяц. 
0 столбец — это комментаторы, которые появились первый раз в этом периоде. Остальные столбцы — это повторные комментарии, которые они оставили в следующих месяцах. По диагонали слева направо будет сумма за месяц. 

Пояснение для тех кто не знаком с когортным анализом — В 6 месяце было 2209 комментариев, в следующем месяце (Период 1) комментаторы из 6 месяца сделали 858 комментариев, дальше они же сделали 754 и т.д.

То же самое в процентах:

Важная заметка. Так как данные собираются не с самого начала, то первые когорты обычно эффективнее выглядят, так как включают в себя активных пользователей из прошлых периодов.
Важная заметка. Так как данные собираются не с самого начала, то первые когорты обычно эффективнее выглядят, так как включают в себя активных пользователей из прошлых периодов.

Какие слова есть в комментах?

Прилагательные:

Тут интересно, что комментарии со словом «плохой» набирает больше в среднем лайков и кол-во слов в комментарии. 😁 Добавление времени и дня недели не дало никаких результатов, все равномерно.
Тут интересно, что комментарии со словом «плохой» набирает больше в среднем лайков и кол-во слов в комментарии. 😁 Добавление времени и дня недели не дало никаких результатов, все равномерно.

Построим график TNSE по существительным.

Анализ 3000 статей на vc.ru в разделе «Маркетинг»

Вывод

Целью данного исследования были разведка и попытка узнать что-нибудь интересное, чтобы скорректировать свою деятельность. Мне кажется, достаточно много очевидных выводов можно сделать из этих данных — например, что не нужно тут писать проходной контент, он не взлетит.

Получилось найти процентили по основным медиапоказателям, и теперь можно оценивать свои работы по процентилям. Интересно было найти категории внутри раздела при помощи ключевых слов. И посмотреть отклик на термины. Динамический анализ показал, что аудитория растет, и качество контента тоже. На когортном анализе было видно, что тут есть достаточно активное сообщество.

Если у вас остались какие-то вопросы или предложения — я с удовольствием на них отвечу в комментариях. Возможно стоит подключить к этим данным библиотеки из OpenAI, сделаем если будет востребовано.

Было интересно? Дальше будет интереснее — Подписывайтесь 😊

8282
67 комментариев

Появилась продуктовая гипотеза для VC.

Было бы здорово, если бы во время написания статьи, можно было провести анализ этой статьи и посмотреть например похожие статьи или получить какой то фидбек автоматически. Это позволило бы авторам лучше фильтровать свой контент.

4

верно. это позволило бы указывать автору, что дерьмом на три абзаца платформа и так уже завалена, и никому нет до неё дела

2

Круто, но странно, что нет приемной, где упоминания косяков тинькофф, авито и прочих?

2

Так тут только один раздел маркетинг. Можно будет взять "Приемную" для следующей статьи

4

<Комментарий для разбавления статистики>

3

Интересно, спасибо!

2