Web Parsing. Основы на Python

Рассмотрим еще один практический кейс парсинга сайтов с помощью библиотеки BeautifulSoup: что делать, если на сайте нет готовой выгрузки с данными и нет API для удобной работы, а страниц для ручного копирования очень много?

Web Parsing. Основы на Python
66

Мои приветствия. А как изменится код, если необходимо пройти по куче однотипных ссылок вида http://ololo.ru/forum/forum_id, где forum_id - цифры по нарастающей и выдрать какую-то информацию?
Т.е. тут добавляется цикл хождения по ссылкам for forum_id in ()
И где-то здесь конкретно у меня появляется проблема, что в результат либо пишется  информация по последней пройденной ссылке, либо выдается информация по всем ссылкам, но с дублированием заголовков, т.е. что-то такое:
        заголовок1      заголовок2
0      инф1                  инф2
        заголовок1      заголовок2
0      инф1                  инф2
Как сделать вывод одной нормальной таблицей? Целый, видимо, квест =(

1
Ответить
Автор

Добрый день.
Необходимо понимать структуру формирования ссылки по которой формируется необходимая страница.
На некоторый сайтах добавляется такой параметр как offset(на разных сайтах может писаться по разному, но смысл должен быть один), т.е. сколько необходимо пропустить страниц или записей. Поперемещайтесь по страницам и посмотрите какой параметр меняется еще.

Ответить