Создаем свой RSS-агрегатор
RSS-каналы – это одна из возможностей получать информацию об обновлениях на понравившемся сайте. Их используют не только рядовые пользователи сети Интернет, но и продвинутые web-разработчики. В данной статье мы рассмотрим, как быстро настроить и отфильтровать RSS-каналы по ключевым словам, используя Python и библиотеку Feedparser. Цель – получить данные и сократить трудозатраты.
RSS (Rich Site Summary) — семейство форматов XML для описания новостных каналов, статей, изменений блогов и т.д.
Данная технология экономит время и помогает получить необходимую информацию, как только она будет размещена на сайте.
В данной статье, мы разберем как написать свой RSS-агрегатор.
Давайте выясним, что такое RSS технически. Изнутри этот файл включает три структуры блоков:
- Метаданные – заголовки, подзаголовки, изображения, описани, основной текст.
- Гиперссылки — для чтения полной версии новостей
- Категории статей и другие дополнительны метаданные
Принцип использования RSS-канала можно представить как беглое знакомство с оглавлением книги или просмотр газетных заголовков. Теперь информацию с сайта можно предоставить в двух видах — полная версия статьи или название с объявлением.
Для начала предлагаем разобраться в фрагменте объекта исследования.
В данном случае, мы получаем такие данные:
- Наименование источника: Сейчас.ру
- Ссылка на канал: https://www.lawmix.ru/
- Заголовок: ЦИК: возможно проведение досрочного голосования по Конституции на протяжении недели
- Описание: Окончательное решение по каждому региону будут принимать избирательные комиссиина местах.
- Ссылка на новость: https://www.lawmix.ru/state/15616
- Время публикации: Fri, 20 Mar 2020 17:41:46 +0300.
Мы же будем приводить в более удобный для нас вид дату публикации и скачивать метаданные в виде файла Excel в формат xlsx. Так же статья имеет и другие метаданные которые нам не интересны (автора и категорию статьи).
Для начала работы нам нужно импортировать необходимые нам библиотеки.
Теперь создадим массив с ссылками на сайты, а так же нам нужен словарик, с помощью которых мы будем осуществлять фильтрацию.
Теперь приступим к добыванию информации с rss-ссылок и обработке каждой статьи.
В конечном счете, мы добыли информацию с сайтов, при помощи RSS.
Теперь мы можем оформить их в любом удобном для нас виде и использовать в дальнейшем.
Инцидент произошёл в апреле 2024 года. Данные о нём появились только сейчас.
Последние интервью показали, что самая актуальная головная боль для собственников-это найм. Так давайте избавляться от этого недуга!
Telegram-бот не работает, но из-за внутренних «техизменений».
Такое предложение выдвинул Российский союз промышленников и предпринимателей.
Есть вещи, о которых лучше знать, чем не знать