парсинг через тот же силениум займет несколько строк, и если контент забирать со страницы, то даже…

05.08.2021

Как я размещался на маркетплейсах для программистов и что из этого вышло

Меня зовут Виталий, я программист и предприниматель. Или предприниматель и программист. Делюсь историей о том, как я пытался выйти на международный рынок с небольшим IT-продуктом через маркетплейсы, и что из этого получилось.

269269

Vadim Semenov ‏⚡☟

06.08.2021

перед тем, что кто-то напишет про регулярки и парсинг (сам хотел): этот продукт заточен под табличные данные насколько я понял

Ответить

Дмитрий Перепёлкин

06.08.2021

Регулярки это лишь инструмент работы с данными, а данные надо как-то получить )

Web-crawler'ы проще всего реализовывать с nokogiri или каким-нибудь beautiful soup, но и с ними есть ряд проблем, они парсят только статичный контент. Так, например, если есть желание распарсить linkedin, то там будет пустая страница с header и footer и ноль полезной информации.

Для динамических страниц всё куда сложнее и тут на помощь приходят selenium или puppeteer работать с которыми уже куда сложнее.

Так что парсинг это не так то просто, как может показаться, и дело не в таблицах. Таблицы, если они статичные, в лёгкую грузятся методами в pandas без лишней мороки.

Ответить