Странно, что про Firecrawl почти никто не пишет.
Хотя это одна из самых полезных и крутых штук, если тебе нужно собирать данные с сайтов.
Я про него знаю, вы скорее всего, тоже.
Пусть будет в канале — чтобы было что кинуть в чат, когда кто-то спросит.
| Firecrawl — это open-source фреймворк для веб-скрапинга.
Ты даёшь ему ссылку — он обходит сайт и возвращает тебе чистые данные.
Что умеет:
• scrape — вытащить контент страницы в markdown, JSON, HTML или скриншотом
• crawl — пройтись по всем ссылкам на странице и собрать их содержимое
• map — просканировать сайт и выдать список всех URL
• search — найти в интернете и вернуть содержимое найденных страниц
• extract — достать структурированные данные с одной или тысячи страниц
Что еще умеет:
• сам борется с бот-защитами
• умеет кликать, скроллить, ждать, логиниться
• парсит PDF, DOCX, изображения
• можно настроить: какие теги исключить, как глубоко лезть, какие заголовки передавать
• теперь можно скормить сразу тысячи ссылок — он обработает их асинхронно
Если строишь агента, работаешь с LLM или хочешь автоматизировать сбор данных с сайтов — посмотрись на Firecrawl.
Сайт: firecrawl.dev
GitHub: github.com/mendableai/firecrawl
| У них еще недавно вышла новая штука — Firestarter.
Платформа для сборки ботов на своих данных (см. видео)
Можно скрапить сайт, натренировать бота и работать на своих источниках.
Подписывайтесь на Telegram Tips AI | IT & AI.