10 GitHub-репозиториев для Парсинга
Сохрани, если работаешь с парсингом, RAG, LLM-пайплайнами или автоматизацией браузера.
Важно: использовать такие инструменты стоит только там, где у вас есть право собирать данные, с учётом ToS, robots.txt и лимитов сайта.
1. Firecrawl
Превращает сайт в чистый Markdown или JSON, удобный для LLM и RAG.
https://github.com/firecrawl/firecrawl
2. Crawl4AI
Краулер, который делает страницы LLM-ready без лишней настройки.
https://github.com/unclecode/crawl4ai
3. Browser Use
AI-агент, который управляет браузером: клики, формы, навигация, сбор данных через UI.
https://github.com/browser-use/browser-use
4. Crawlee
Production-фреймворк для краулинга: очереди, ретраи, браузерная автоматизация, хранение результатов.
https://github.com/apify/crawlee
5. Scrapy
Классика Python-скрейпинга. Подходит для больших краулеров и стабильных data pipelines.
https://github.com/scrapy/scrapy
6. MarkItDown
Инструмент Microsoft для конвертации PDF, Office, HTML и других форматов в Markdown.
https://github.com/microsoft/markitdown
7. Scrapling
Фреймворк для более устойчивого парсинга страниц, которые часто меняют структуру.
https://github.com/D4Vinci/Scrapling
8. scrcpy
Управление Android-устройством с компьютера. Полезно для тестирования и автоматизации mobile-only сценариев.
https://github.com/Genymobile/scrcpy
9. AutoScraper
Показываете пример нужных данных, а он сам пытается найти похожие элементы на странице.
https://github.com/alirezamika/autoscraper
10. curl-impersonate
Версия curl, которая имитирует сетевой профиль популярных браузеров. Полезно для тестов и совместимости.
https://github.com/lwthiker/curl-impersonate
Современный scraping давно перерос requests + BeautifulSoup.
Теперь это целая инфраструктура: браузерные агенты, Markdown для LLM, очереди, мобильная автоматизация и пайплайны для подготовки данных под AI.