10 GitHub-репозиториев для Парсинга

10 GitHub-репозиториев для Парсинга

Сохрани, если работаешь с парсингом, RAG, LLM-пайплайнами или автоматизацией браузера.

Важно: использовать такие инструменты стоит только там, где у вас есть право собирать данные, с учётом ToS, robots.txt и лимитов сайта.

1. Firecrawl

Превращает сайт в чистый Markdown или JSON, удобный для LLM и RAG.

https://github.com/firecrawl/firecrawl

2. Crawl4AI

Краулер, который делает страницы LLM-ready без лишней настройки.

https://github.com/unclecode/crawl4ai

3. Browser Use

AI-агент, который управляет браузером: клики, формы, навигация, сбор данных через UI.

https://github.com/browser-use/browser-use

4. Crawlee

Production-фреймворк для краулинга: очереди, ретраи, браузерная автоматизация, хранение результатов.

https://github.com/apify/crawlee

5. Scrapy

Классика Python-скрейпинга. Подходит для больших краулеров и стабильных data pipelines.

https://github.com/scrapy/scrapy

6. MarkItDown

Инструмент Microsoft для конвертации PDF, Office, HTML и других форматов в Markdown.

https://github.com/microsoft/markitdown

7. Scrapling

Фреймворк для более устойчивого парсинга страниц, которые часто меняют структуру.

https://github.com/D4Vinci/Scrapling

8. scrcpy

Управление Android-устройством с компьютера. Полезно для тестирования и автоматизации mobile-only сценариев.

https://github.com/Genymobile/scrcpy

9. AutoScraper

Показываете пример нужных данных, а он сам пытается найти похожие элементы на странице.

https://github.com/alirezamika/autoscraper

10. curl-impersonate

Версия curl, которая имитирует сетевой профиль популярных браузеров. Полезно для тестов и совместимости.

https://github.com/lwthiker/curl-impersonate

Современный scraping давно перерос requests + BeautifulSoup.

Теперь это целая инфраструктура: браузерные агенты, Markdown для LLM, очереди, мобильная автоматизация и пайплайны для подготовки данных под AI.

1