Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Как не заблудиться среди множества материалов на сайтах-гигантах и за пару кликов научиться находить самые полезные и резонансные публикации?

Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Все большую популярность приобретают информационные порталы, охватывающие своими статьями множество сфер и тематических ниш. Я — знатный любитель зависать на таких сайтах, а ещё, в силу своей профессии и склада характера, — большой поклонник аналитики.

Всегда интересно знать, какие материалы вызывают наибольший читательский отклик. Помимо обыкновенного любопытства, тут кроется и корыстный авторский мотив: хочется быть в топе и понимать, чем зацепить аудиторию.

Именно поэтому я написал небольшую утилиту, которая может скачать информацию о статьях любимых разделов сайтов vc.ru, tjournal.ru и dtf.ru, а также отфильтровать самые интересные из них по нескольким критериям.

Уверен, подобными поисками занимаюсь не только я, поэтому с радостью делюсь с вами своей разработкой.

Для начала нужно:

  • убедиться, что у вас установлен Docker или PHP;
  • выбрать сайт из представленных выше и ваш любимый раздел на нём;
  • узнать техническое название раздела из поисковой строки браузера.

Чтобы узнать техническое название раздела, достаточно перейти в этот раздел на сайте и скопировать его из поисковой строки браузера.

Например, раздел «Разработка» на сайте vc.ru имеет URL https://vc.ru/dev.

Его техническое название – dev.

Я буду приводить команды без упоминания Docker. Для того, чтобы запускать команды в Docker, достаточно дописать в начало каждой команды:

docker run -v "$(pwd)/db:/app/db" mrsuh/platform-analyzer

Например:

docker run -v "$(pwd)/db:/app/db" mrsuh/platform-analyzer php bin/console collect --help

Теперь нужно понять, как работает утилита.

У неё есть всего две команды:

  • команда для сбора данных;
php bin/console collect --help Options: --platform=PLATFORM доступные значения: vc, tjournal, dtf --section=SECTION ваш выбранный раздел на сайте
  • команда для отображения собранных данных в разных форматах с разной выборкой.
php bin/console analyze --help Options: --platform=PLATFORM Доступные значения: vc, tjournal, dtf --section=SECTION Ваш выбранный раздел на сайте --sort=SORT Сортировка. Доступные значения: date, rating, hits, commentsCount, favoritesCount --limit=LIMIT Лимит на количество выводимых строк --format=FORMAT Формат. Доступные значения: cli, csv, md --short=SHORT Вывод только основных полей. Доступные значения: 0, 1 --fromDate=FROMDATE Фильтрация по дате, с которой нужно искать статьи. Формат даты: 2020-01-01

Сначала мы собираем данные (collect), а потом выводим их в нужном нам формате (analyze).

Для примера я выбрал сайт vc.ru и раздел «Разработка» (dev).

Запускаем команду сбора данных:

php bin/console collect --platform=vc --section=dev -vv

Через некоторое время команда завершается, и у вас появляются данные по всем статьям из раздела «Разработка».

Теперь можно окинуть любопытным взором собранную информацию. Поехали!

Статьи с самым большим рейтингом за всё время:

php bin/console analyze --platform=vc --section=dev --format=cli --limit=5 --sort=rating --short=1
Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Статьи с самым большим количеством комментариев за всё время:

php bin/console analyze --platform=vc --section=dev --format=cli --limit=5 --sort=commentsCount --short=1
Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Статьи с самым большим рейтингом за сентябрь:

php bin/console analyze --platform=vc --section=dev --format=cli --limit=5 --sort=rating --short=1 --fromDate=2020-09-01
Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Статьи с самым большим количеством комментариев за сентябрь:

php bin/console analyze --platform=vc --section=dev --format=cli --limit=5 --sort=commentsCount --short=1 --fromDate=2020-09-01
Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Также можно выгрузить все данные в формате CSV

php bin/console analyze --platform=vc --section=dev --format=csv > data.csv

и загрузить их в Excel, где возможностей сортировки и модификации данных намного больше.

Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru
Ищем самые интересные статьи в разделах на сайтах vc.ru, tjournal.ru и dtf.ru

Приятного сёрфинга!

Вот тут можно посмотреть код утилиты.

А здесь – увидеть больше уже обработанных данных:

1313
3 комментария

Комментарий недоступен

9
Ответить

раздел dev тут - треш и угар

2
Ответить

А мемы на vc есть? На тж и дтф нашёл, а тут нет

2
Ответить