Далее, уже внутри этих блоков информация может принимать различные вариации в зависимости от назначения. В блоках, предназначенных для навигации преобладают ссылочные теги, в блоках, где имеется много изображений, соответственно, много тегов. Нас же интересуют блоки web-страниц, в которых хранятся тексты статей.
У многих новостных сайтов и у блогов бывает RSS-лента. RSS - структурированный, там и html-мусора не будет, и специализированные библиотеки под любой язык программирования есть, и многие программы для чтения новостей или книг умеют RSS поддерживать. Список доступных RSS-каналов lenta.ru есть здесь: https://lenta.ru/info/posts/export/
Использую xpath для парсинга на python и php, все лучше чем BeautifulSoup)
вы наверное имели ввиду lxml или какую-то еще библиотеку для работы с xml/html? xpath это ж язык запросов к элементам XML.
мне кажется сейчас уже больше половины трафика в интернете - это роботы
а кроме lenta.ru где новости живут?