✔️ Run Llama выкатили LiteParse - open-source инструмент для быстрого локального парсинга документов.
Если задача - быстро достать текст, координаты, структуру страниц и скриншоты, это можно делать локально.
Что умеет LiteParse:
- парсит PDF через PDFium
- сохраняет bounding boxes для текста
- умеет OCR через встроенный Tesseract
- поддерживает внешние OCR-серверы вроде EasyOCR или PaddleOCR
- генерирует скриншоты страниц для LLM-агентов
- отдаёт результат в JSON или обычный текст
- работает из Rust, Python, Node.js/TypeScript и WASM
- запускается на Linux, macOS и Windows
Авторы прямо разделяют сценарии: LiteParse для быстрых локальных задач, LlamaParse - для тяжёлых случаев с таблицами, сложной версткой, графиками, рукописным текстом и сканами.
https://github.com/run-llama/liteparse
1 комментарий