{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Я спарсил наш любимый vc.ru. Краткие итоги за 2021 год

Под занавес уходящего года принято подводить итоги. В качестве учебного проекта я решил изучить доступные данные vc.ru и предлагаю вашему вниманию немного ознакомится с ними. Никакого анализа - только сухие цифры.

Для всех заинтересованных в конце статьи будет ссылка на базу, если не против администрация vc.

Немного о структуре vc.ru. Фактически портал состоит из подсайтов, которые бывают двух типов:

  • тематические - их 33 шт
  • официальные представительства компаний/персон - их 346 шт (они с галочкой).

Два важных замечания:

  • В этой статья я рассматриваю только материалы из первого типа подсайтов (у меня попросту не хватило времени и ресурсов).
  • В расчетах не учтены 3 последних дня 2021 г.

1. Всего за 2021г было опубликовано 32748 статей.

2. В общей сложности было написано 1 119 987 комментариев. Охотнее всего люди говорят про Офлайн, Транспорт и Еду. Ниже показаны средние значения по количеству комментариев.

3. Без сомнения, "Истории" - самые любимый формат публикации.

4. Самые популярные статьи (но правда по количеству голосов) легко найти используя функционал самого vc.ru.

Лидером по всем категориям оказалась первая статья Олега Тинькова. Остальное вы можете посмотреть самостоятельно.

5. Но рейтинг можно составить и по количеству комментариев. Самые резонансные публикации:

6. На выходных нужно отдыхать. vc.ru тоже немного отдыхает.

7. Ночью vc.ru тоже практически спит (фактически дремлит). Время по Москве.

8. И летом немного отдыхает. Май "просел" из-за майских праздников (см. п.12)

9. Самые продуктивные авторы в 2021 году. В т.ч. и редакторский состав vc.

Евгения Евсеева - 1331 публикаций
Маша Цепелева - 1108 публикаций
Nazigul Jusupova - 831 публикаций
Таня Боброва - 664 публикаций
Рая Хачатрян - 424 публикаций
TJ - 267 публикаций
Кабинет инвестора - 200 публикаций
Лиана Липанова - 160 публикаций
Евгений Делюкин - 157 публикаций
Seller Den - 140 публикаций

Полина Лааксо - 133 публикаций
Новости TJ - 127 публикаций
Борис Преображенский - 126 публикаций
StormGain - 123 публикаций
Black VR - 119 публикаций
DTF - 106 публикаций
StartupReviews - 100 публикаций
Делобанк - 98 публикаций
Findale.pro - 95 публикаций
Kirill Bychkov - 92 публикаций

10. Авторы, получившие наибольшее количество голосов (лайков) за 2021 год. Лайки за комментарии не учитываются.

Евгения Евсеева +33908 голосов
Маша Цепелева +30657 голосов
Таня Боброва +19191 голосов
Nazigul Jusupova +16835 голосов
Рая Хачатрян +11614 голосов
TJ +10333 голосов
Евгений Делюкин +10053 голосов
Лиана Липанова +9503 голосов
Полина Лааксо +7225 голосов
Новости TJ +5722голосов

11. Авторы, поймавшие больше всего хейта в 2021 году (со знаком минус). Дизлайки за комментарии не учитываются. Ссылки на страницы они попросили не указывать 😎

Максим Бондаренко -57 голосов
Зюзгинов Александр -41 голосов
Иван Бабайлов -36 голосов
Евгений Халепа -31 голосов
Олег Малышев -27 голосов
ZAMEDIA -26 голосов
Автомойки 150 bar -26 голосов
Сергей Грушка -24 голосов
Elena B -22 голосов
Здравомыслящий инвестор -22 голосов

11. Здесь не принято закидывать авторов дизлайками ... или да? Самые популярные оценки 0 и 1.

Думаю я еще добавлю интересные выводы, нужно покопаться в данных.

UPD: 12. На годовой диаграмме с общим количеством публикаций, четко прослеживаются выходные и праздничные дни (январь/декабрь, май, ноябрь). Линия тренда вверх. У vc дела идут в гору.

Если у читателей возникнет интерес к технической стороне вопроса: как была собрана информация и проанализирована - прошу написать об этом в комментариях, и я постараюсь подготовить развернутую статью.

UPD: API не использовалось, только классический подход парсинга вебстраниц.

UPD: меня упрекнули что я учитывал в том числе и штатных сотрудников vc.ru, поэтому я расширил список самых продуктивных авторов (пункт 9) до 20 человек, добавил ссылки на их страницы. Предлагаю вам самостоятельно определить кто из них имеет прямое отношение к vc, а кто "свободный" автор.

База в формате *.sqlite и *.csv размещена на моем GitHub

Спасибо vc.ru за возможность выражать мысли открыто. Всех с новым годом!

0
89 комментариев
Написать комментарий...
Зоя Евсеева

как понимать слово спарсил? собрал?

Ответить
Развернуть ветку
Wezochy
Автор

собирать и структурировать информацию, в данном случае с сайта. можно парсить, например документы или жесткий диск.

Ответить
Развернуть ветку
86 комментариев
Раскрывать всегда