Странно, что про Firecrawl почти никто не пишет.

Хотя это одна из самых полезных и крутых штук, если тебе нужно собирать данные с сайтов.

Я про него знаю, вы скорее всего, тоже.

Пусть будет в канале — чтобы было что кинуть в чат, когда кто-то спросит.

| Firecrawl — это open-source фреймворк для веб-скрапинга.

Ты даёшь ему ссылку — он обходит сайт и возвращает тебе чистые данные.

Что умеет:

• scrape — вытащить контент страницы в markdown, JSON, HTML или скриншотом

• crawl — пройтись по всем ссылкам на странице и собрать их содержимое

• map — просканировать сайт и выдать список всех URL

• search — найти в интернете и вернуть содержимое найденных страниц

• extract — достать структурированные данные с одной или тысячи страниц

Что еще умеет:

• сам борется с бот-защитами

• умеет кликать, скроллить, ждать, логиниться

• парсит PDF, DOCX, изображения

• можно настроить: какие теги исключить, как глубоко лезть, какие заголовки передавать

• теперь можно скормить сразу тысячи ссылок — он обработает их асинхронно

Если строишь агента, работаешь с LLM или хочешь автоматизировать сбор данных с сайтов — посмотрись на Firecrawl.

Сайт: firecrawl.dev

| У них еще недавно вышла новая штука — Firestarter.

Платформа для сборки ботов на своих данных (см. видео)

Можно скрапить сайт, натренировать бота и работать на своих источниках.

Подписывайтесь на Telegram Tips AI | IT & AI.

4
Начать дискуссию