"Одна веб-страница — 180 000 токенов. Как content-прокси сокращает расход AI-агентов на 99%"

Одна веб-страница — 180 000 токенов. Как content-прокси сокращает расход AI-агентов на 99%

Вот что меня удивило на прошлой неделе. Я запустил AI-агента на задачу: «прочитай документацию React и объясни новый API». Агент сходил на одну страницу — и сжёг 182 000 токенов.

Не на ответ. На **чтение HTML-страницы**.

Откуда 180 тысяч токенов

Веб-страница для браузера и веб-страница для языковой модели — два разных объекта. Браузер рендерит HTML, игнорирует мусор, показывает картинки. LLM получает всё: каждый `

`, каждый инлайновый стиль, каждый SVG-путь, каждый `

Типичная React-документация — это SPA. В сыром HTML большая часть «веса» — это JS-бандлы и стили. Текста на странице — пара тысяч слов. Обвязки — на 180 000 токенов.

При $2.50 за миллион входных токенов (GPT-4o) одна страница обходится в ~$0.45. Агент, который за сессию читает 20 страниц — $9 только на входные данные. Claude Opus — умножайте на 6.

Решение: content-прокси

Идея элементарная. Между агентом и интернетом ставится прослойка, которая:

1. Загружает HTML-страницу 2. Вырезает всё кроме основного контента (Mozilla Readability — тот же алгоритм, что в «режиме чтения» Firefox) 3. Конвертирует в markdown (Turndown) 4. Отдаёт агенту чистый текст

Никакого LLM-вызова. Чистая детерминистическая обработка. 50-200 мс на страницу. Стоимость — ноль.

На выходе: вместо 182 000 токенов — 3 800. Экономия **97.9%**.

Что уже есть

**Cloudflare Markdown for Agents** — с февраля 2026. Добавляете `Accept: text/markdown` в заголовок запроса, Cloudflare отдаёт markdown вместо HTML. Работает на edge-уровне. По их данным — 80% сокращение токенов. Бесплатно на Pro+.

Claude Code и OpenCode уже отправляют этот заголовок по умолчанию.

**Jina Reader API** — `r.jina.ai/URL`. Бесплатно до 1 000 запросов/день. Readability + Turndown под капотом.

**Локальный прокси** — 50 строк на Node.js: JSDOM + Readability + Turndown. Полный контроль, нулевая зависимость от внешних API.

**MCP-серверы** — `mcp-read-website-fast` для Claude Code. Агент вызывает tool `read_url` — получает markdown.

Реальные замеры

| Страница | HTML | Markdown | Экономия | |---|---|---|---| | React docs | 182 400 | 3 800 | 97.9% | | Wikipedia | 94 200 | 12 600 | 86.6% | | Cloudflare blog | 16 180 | 3 150 | 80.5% | | Средний SPA | 320 000+ | 2 100 | 99.3% |

Заявление «99%» — реалистично для тяжёлых SPA. Для контентных сайтов — 80-90%.

Ограничения

Прокси не справляется с динамическим контентом, который грузится через JavaScript после рендера — для таких страниц нужен headless-браузер. Не проходит авторизацию. Может терять контекст сложных таблиц и форм.

Но для 80% задач «прочитай эту страницу» — работает идеально.

Почему это важно

Content-прокси — часть тренда: инфраструктура для AI-агентов. Cloudflare строит Markdown for Agents + Browser Rendering + Content Signals. Jina делает Reader API + Reader-LM. AgentReady сжимает промпты на текстовом уровне.

Общая идея: между агентом и данными нужен **детерминистический слой нормализации**. Не LLM — быстрый, бесплатный парсер.

Тратить токены на `

` в 2026 году — то же, что в 2010-м отправлять несжатые BMP по dial-up.

Если строите агентов — добавьте content-прокси как первый шаг обработки URL. Буквально: 50 строк кода или одна npm-установка. Экономия — тысячи долларов в месяц.

**А вы как решаете проблему раздутого контекста у агентов?**