Как срезать расход токенов в Claude Code на 90%: 10 GitHub-репозиториев, рабочий стек и нативные команды, которые все игнорируют

Типичная сессия в Claude Code сжигает 80 000–200 000 токенов за несколько часов работы. Когда лимит упирается посреди рефакторинга в пятницу вечером — фича уезжает на понедельник. Это не теоретическая проблема, это вопрос дедлайнов.

За последние несколько месяцев мы протестировали почти все GitHub-репозитории, которые обещают экономию токенов. Большинство — маркетинг. Часть реально работает. Ниже — рейтинг по звёздам, разбор концепций, без которых ни один инструмент не имеет смысла, и готовый стек, который у меня лично режет потребление на 85–92%.

Куда вообще уходят токены

Прежде чем ставить инструменты, надо понять, где они утекают. В Claude Code токены тратятся в трёх местах: начальный контекст (CLAUDE.md, чтение файлов, вывод bash-команд), ответы модели (многословные объяснения, повторяющиеся резюме) и ретраи из-за ошибок.

Главная дыра — вторая. CLI-команды вроде npm test, cargo build или git status выплёвывают тысячи строк, и Claude Code читает их все целиком, прежде чем что-то решить. Один прогон pytest -v на проекте средней руки легко съедает 8 000 токенов только на выводе. Десять прогонов в час — 80 000 токенов сожжены на чтение тысячи «PASSED».

Вторая дыра — раздутый CLAUDE.md. Многие проекты таскают файл на 11 000 токенов с каждым запросом. Если в нём лежит историческая документация и дублирующиеся инструкции — вы платите фиксированный налог с каждого промпта.

Три концепции, без которых инструменты бесполезны

Context rot — это измеряемая деградация качества по мере роста сессии. Не ощущение, а данные: точность retrieval падает с 92% на 256K токенов до 78% на 1M. На длинных сессиях Claude противоречит сам себе, редактирует файлы без перечитывания, мямлит. Анализ 18 000 thinking-блоков по 7 000 сессий показал, что глубина рассуждений падает на 67% по мере удлинения сессии, а «правки без чтения» прыгают с 6% до 34%.

Практический вывод: сессия на 500K токенов даёт результат хуже, чем на 200K, и стоит вдвое дороже. Большое контекстное окно — не преимущество, если использовать его без дисциплины.

Самая контринтуитивная штука. Каждый раз, когда вы отправляете сообщение, Claude перечитывает весь чат с самого начала. Сообщение 1, ответ 1, сообщение 2, ответ 2 — всю историю до текущего промпта. Каждый раз.

Стоимость не складывается, она растёт экспоненциально. Сообщение 1 стоит 500 токенов, сообщение 30 — уже 15 500 (в 31 раз больше). После 30 сообщений вы спокойно выходите на 250 000 кумулятивных токенов. Задокументированный кейс: чат на 100+ сообщений, 98,5% токенов ушло просто на перечитывание истории.

Claude Code запускает авто-компакцию на 95% окна — ровно в тот момент, когда это уже бесполезно. На 95% вы сохраняете 20–30% исходных деталей, и модель сжимает контекст на пике своей деградации.

Лечится ручной компакцией на 60%: попросите Claude дать полный summary, запустите /clear, вставьте summary, продолжайте. Это бьёт автоматический /compact, потому что вы решаете, что сохранить — а не уже одуревшая модель.

Правило 120K токенов: не превышайте 12% контекстного окна (примерно 120K из 1M). Это порог, ниже которого модель работает оптимально. Окно в 1M — страховка на крайний случай, а не цель.

Отбирал по трём критериям: минимум 4 000 звёзд, измеримое влияние с бенчмарками в README, активные коммиты за последние 60 дней.

Skill от Julius Brussee, который заставляет Claude говорить «как первобытный человек». Ирония — формат, серьёзно — результат: средняя экономия выходных токенов 65%, до 87% на сложных дебаг-промптах.

Принцип: короткие фразы, инфинитивы, ноль воды. Работает потому, что большая часть выходных токенов — повторы: «Let me explain what I'm going to do», «Based on the code I've analyzed», «Here's a summary». Caveman вырезает всю эту прозу, оставляя код и технические данные нетронутыми.

Установка: копируете skill-файл в .claude/skills/, активируете правилом в CLAUDE.md. Ноль зависимостей, ноль фоновых процессов.

Курируемый список от hesreallyhim. Сам по себе токены не режет, но это входная точка во всю экосистему: разделы по token optimization, context engineering, паттернам CLAUDE.md, переиспользуемым slash-командам и хукам. Экономит часы ручной оценки на GitHub.

Самый трансформирующий инструмент в списке. Прокси между Claude Code и Anthropic, который решает, какую модель использовать под задачу: DeepSeek для простого кода, Gemini для быстрых вопросов, Ollama для всего, что можно гонять локально, и Claude — только когда без него никак.

Реальная экономия зависит от микса задач. На повторяющемся редактировании файлов — падение трат у Anthropic на 70–80%. На сложном агентном программировании экономия меньше, но появляется гибкость. Сетап — YAML-конфиг и API-ключи альтернативных провайдеров. Кривая обучения часа на два, ROI — с первого дня.

Подвох: не на 100% совместим с нативными фичами Claude Code. Кастомные skills могут сломаться, если роутер уведёт запрос на модель, которая их не поддерживает. Тестируйте на песочнице.

CLI-прокси на Rust, который встаёт перед shell-командами и фильтрует вывод до того, как он попадёт к Claude. Бенчмарки серьёзные: cargo test — со 155 строк до 3 (98% сокращение), git status — со 119 символов до 28 (76%), npm install — с 4 000 строк до 15.

Логика простая: Claude не нужно читать каждое «test passed», ему нужно знать, сколько прошло и какие упали. Бинарник 2 МБ, ноль зависимостей, ставится одной командой, работает на air-gapped машинах.

Eyal Toledano решает проблему со стороны планирования. Берёт PRD или high-level спеку и режет на атомарные задачи. Каждая становится мини-сессией с минимальным контекстом, вместо мегасессии с проектом целиком в памяти.

Хорошо изолированная задача — 5 000–10 000 токенов. Сессия «сделай всё» — 80 000. Особенно хорош для фич с 3+ подзадачами. Интеграции с Cursor и Windsurf, есть VSCode-расширение.

Шаблоны от Daniel Avila: преднастроенные CLAUDE.md под стек (Next.js, FastAPI, Rails, Flutter, Go), переиспользуемые skills, специализированные агенты, готовые slash-команды. Экономия косвенная, но существенная: оптимизированный стартовый CLAUDE.md пропускает первые 20 итераций, на которых Claude учится проекту.

Типовой шаблон — 800–1 500 токенов. Самописные обычно стартуют от 5 000+.

Полноценный фреймворк с компрессированными командами (/analyze, /design, /implement), когнитивными персонами (architect, frontend, security) и преднастроенными методологиями. Каждая команда инженерилась под минимизацию токенов: вместо «Проанализируй файл и скажи, есть ли проблемы безопасности» — /analyze --security.

Локальный кэш не даёт перечитывать файлы, виденные в той же сессии. Средняя экономия 30–40%, до 60% на повторяющихся задачах вроде код-ревью.

Де-факто стандарт для анализа потребления. Читает локальные JSONL-файлы (в ~/.claude/projects/) и выдаёт детализацию: токены по моделям, по типам (cache creation vs cache read), оценка стоимости по дням, часам, проектам.

Работает офлайн, поддерживает MCP-интеграцию (можно попросить сам Claude проанализировать ваше потребление). Токены не режет, но без него вся оптимизация — пальцем в небо. Я считаю это обязательным условием любой стратегии экономии.

То, чего нет в ccusage: реалтайм-мониторинг и алерты до того, как вы упрётесь в Max. Прогресс-бар прогнозирует, когда токены кончатся при текущем темпе, можно ставить пороги, после которых инструмент блокирует новые промпты.

Кто хоть раз ловил лимит посреди деплоя — поймёт ценность. Алерт за 30 минут до блока — успеваете дожать критическое или прикрутить многословность.

Самое ленивое решение в списке. Один drop-in CLAUDE.md с компактными инструкциями, заставляющими Claude отвечать кратко. Скопировал в проект, перезапустил сессию — готово.

Экономия скромная (20–30% на выходе), но и стоимость внедрения нулевая: ни зависимостей, ни процессов, ни прокси. Идеально, чтобы протестировать, работает ли prompt-оптимизация на вашем флоу, до серьёзного сетапа.

30–90% в зависимости от стека и воркфлоу. Контролируемые тесты на реальных проектах: 30–40% с одним caveman, 60–70% плюс claude-code-router, 85–92% полным стеком. Повторяющийся рефакторинг экономит больше, архитектура и дизайн — меньше.

Вывод

Год назад инструментов для урезания токенов в Claude Code было два-три полузаброшенных проекта. Сегодня — десятки тысяч звёзд на решениях, которые реально работают. Паттерн один: retention получают инструменты, построенные на измеримых принципах, а не на обещаниях.

Операционный совет: начните с ccusage, неделю меряйте, потом добавляйте по одному инструменту в порядке router → rtk → caveman. Каждая итерация — час сетапа и два-три дня окупаемости.

Экономия токенов — не цель, а средство. Больше пространства в контекстном окне — длиннее сессии, сложнее задачи в одном заходе, меньше прерываний. Каждая минута на конфигурацию окупается.

Больше про LLM и AI — в нашем Telegram-канале (@devgeek_sh). Разбираем новые модели, делимся опытом и полезными находками.

Как срезать расход токенов в Claude Code на 90%: 10 GitHub-репозиториев, рабочий стек и нативные команды, которые все игнорируют

Context rot (или «AI-деменция»)

Token compounding

Авто-компакция приходит слишком поздно

5 GitHub-репозиториев, которые реально режут токены

1. caveman — 41 288 звёзд

2. awesome-claude-code — 40 000 звёзд

3. claude-code-router — 32 644 звезды

4. rtk (Rust Token Killer) — 31 234 звезды

5. claude-task-master — 26 615 звёзд

6. claude-code-templates — 24 817 звёзд

7. SuperClaude_Framework — 22 369 звёзд

8. ccusage — 13 124 звезды

9. Claude-Code-Usage-Monitor — 7 664 звезды

10. claude-token-efficient — 4 661 звезда

Сколько реально экономится?