RSS-каналы – это одна из возможностей получать информацию об обновлениях на понравившемся сайте. Их используют не только рядовые пользователи сети Интернет, но и продвинутые web-разработчики. В данной статье мы рассмотрим, как быстро настроить и отфильтровать RSS-каналы по ключевым словам, используя Python и библиотеку Feedparser. Цель – получить данные и сократить трудозатраты.
Данная технология экономит время и помогает получить необходимую информацию, как только она будет размещена на сайте.
В данной статье, мы разберем как написать свой RSS-агрегатор.
Давайте выясним, что такое RSS технически. Изнутри этот файл включает три структуры блоков:
Метаданные – заголовки, подзаголовки, изображения, описани, основной текст.
Гиперссылки — для чтения полной версии новостей
Категории статей и другие дополнительны метаданные
Принцип использования RSS-канала можно представить как беглое знакомство с оглавлением книги или просмотр газетных заголовков. Теперь информацию с сайта можно предоставить в двух видах — полная версия статьи или название с объявлением. Для начала предлагаем разобраться в фрагменте объекта исследования.
В данном случае, мы получаем такие данные:
Наименование источника: Сейчас.ру
Ссылка на канал: https://www.lawmix.ru/
Заголовок: ЦИК: возможно проведение досрочного голосования по Конституции на протяжении недели
Описание: Окончательное решение по каждому региону будут принимать избирательные комиссиина местах.
Ссылка на новость: https://www.lawmix.ru/state/15616
Время публикации: Fri, 20 Mar 2020 17:41:46 +0300.
Мы же будем приводить в более удобный для нас вид дату публикации и скачивать метаданные в виде файла Excel в формат xlsx. Так же статья имеет и другие метаданные которые нам не интересны (автора и категорию статьи). Для начала работы нам нужно импортировать необходимые нам библиотеки.
Теперь создадим массив с ссылками на сайты, а так же нам нужен словарик, с помощью которых мы будем осуществлять фильтрацию.
Теперь приступим к добыванию информации с rss-ссылок и обработке каждой статьи.
В конечном счете, мы добыли информацию с сайтов, при помощи RSS.
Теперь мы можем оформить их в любом удобном для нас виде и использовать в дальнейшем.