Регулярки это лишь инструмент работы с данными, а данные надо как-то получить )
Web-crawler'ы проще всего реализовывать с nokogiri или каким-нибудь beautiful soup, но и с ними есть ряд проблем, они парсят только статичный контент. Так, например, если есть желание распарсить linkedin, то там будет пустая страница с header и footer и ноль полезной информации.
Для динамических страниц всё куда сложнее и тут на помощь приходят selenium или puppeteer работать с которыми уже куда сложнее.
Так что парсинг это не так то просто, как может показаться, и дело не в таблицах. Таблицы, если они статичные, в лёгкую грузятся методами в pandas без лишней мороки.
перед тем, что кто-то напишет про регулярки и парсинг (сам хотел): этот продукт заточен под табличные данные насколько я понял
Регулярки это лишь инструмент работы с данными, а данные надо как-то получить )
Web-crawler'ы проще всего реализовывать с nokogiri или каким-нибудь beautiful soup, но и с ними есть ряд проблем, они парсят только статичный контент. Так, например, если есть желание распарсить linkedin, то там будет пустая страница с header и footer и ноль полезной информации.
Для динамических страниц всё куда сложнее и тут на помощь приходят selenium или puppeteer работать с которыми уже куда сложнее.
Так что парсинг это не так то просто, как может показаться, и дело не в таблицах. Таблицы, если они статичные, в лёгкую грузятся методами в pandas без лишней мороки.