Чистка токенов Claude Code за 15 минут: -50% к расходу

Открыл /context на свежей сессии Claude Code. Занято 60 000 из 200 000 токенов, я ещё не написал ни слова. Просто запустил claude в проекте и нажал Enter.

Шестьдесят тысяч - это треть бюджета, которая ушла в окно до того, как модель прочитала мой первый символ. Я полтора месяца платил за этот налог: упирался в дневной лимит к среде, открывал второй чат с тем же контекстом, потому что первый «забыл» правки, сделанные час назад.

Через две недели разобрался, куда конкретно. Ниже - 8 шагов чистки, которая занимает 15 минут и срезает расход на 40-50%. Не «купи Max за $200, и проблема решится». На Max то же контекстное окно 200K, тот же системный налог 19K - я разберу почему дальше. Сначала чек-лист, потом теория.

Открой проект в Claude Code и пройди по порядку. Каждый шаг - 1-3 минуты. Цифры в скобках - типовая экономия токенов на стандартной сессии после первой чистки.

ШАГ 1. /context # снять текущий замер: что и сколько занято ШАГ 2. /clear # если в чате история не по текущей задаче (-5-20K) ШАГ 3. ls -la ~/.claude/skills/ # удалить skills, не использовал месяц (-2-6K) rm -rf ~/.claude/skills/[name] ШАГ 4. /plugin list # плагины, поставленные «попробовать» (-1-4K) /plugin remove <name> ШАГ 5. /mcp # MCP-серверы, не нужные в текущей задаче (-8-40K) /mcp disconnect <name> ШАГ 6. wc -l CLAUDE.md # цель 100-200 строк; больше - резать в Skills (-3-8K) ШАГ 7. /effort low # на простых задачах (-5-20K thinking) ШАГ 8. /context # финальный замер; сравнить с шагом 1

Типовой результат: с 60-80K занятого до 25-30K. На той же задаче дневной расход падает почти вдвое. Контекст становится в 2-3 раза просторнее, Claude перестаёт «забывать» вещи, сказанные 30 сообщений назад.

Если каждый шаг показался очевидным - открой /context прямо сейчас и проверь свою сессию. Готов поспорить, у тебя стоит хотя бы два MCP-сервера, которыми ты не пользуешься уже месяц.

Дальше - почему это работает и что именно жгло.

В Claude Code контекстное окно у всех планов одно - 200 000 токенов. Anthropic это пишет в docs прямо: подписка не расширяет окно, она расширяет дневную квоту. Поэтому переход на старший план не лечит раздутый контекст - ты упираешься в ту же стену 200K, только дороже.

До того, как ты написал первый символ, Claude уже загрузил пять слоёв в это окно. Реальная раскладка с GitHub issue #13717, где инженер открыл /context в сессии с шестью MCP-серверами:

System prompt - 3 200 токенов (1.6%). Базовая инструкция Claude как кодинг-агента. Не урежешь.
System tools - 16 100 токенов (8.0%). Описание встроенных Read/Edit/Bash/Grep и т.д. Не урежешь.
MCP tools - 98 700 токенов (49.3%). Google Docs, Asana, Calendar, Slack, Atlassian, Gmail. По 16-18K на сервер. Это урежешь.
Memory files - 3 000 (1.5%). Выгрузки Memory tool. Чистится через /memory clear.
Свободное место + autocompact buffer - 79 000 (39.5%). На весь твой диалог.

До твоего первого символа занято 120K из 200K - 60%. На сам разговор остаётся 80K, и в эти 80K должен влезть весь диалог, прочитанные файлы, выводы bash и ответы MCP. На длинной сессии 80K кончаются за 30-40 сообщений.

Я держу /context на горячей клавише и открываю каждые 20-30 минут. Это две секунды и сразу видно, что съело окно.

Boris Cherny, создатель Claude Code, в подкасте у Pragmatic Engineer назвал три главных паттерна потерь: CLAUDE.md, повторное чтение истории и MCP. Доли пересекаются и зависят от настройки сессии (14% / 13% / до 49% - цифры из разных независимых замеров), поэтому в лоб не складываются в 73%, но порядок верный: до трёх четвертей бюджета сгорает ещё до того, как Claude видит твой реальный запрос. Я разбирал, как закрывать каждый из этих паттернов.

Это первое, что меня удивило. CLAUDE.md - это не «прочитал и забыл», файл подгружается перед каждым твоим сообщением, не один раз за сессию. Если файл разросся до 5 000 токенов (стандартный размер для зрелого проекта), ты платишь эту цену на 50-м сообщении, на 100-м, на 200-м.

Anthropic в docs говорит явно:

«Цельтесь сохранять CLAUDE.md в пределах 200 строк, включая только самое важное. Специализированные инструкции выносите в skills, которые подгружаются по требованию.»

Моя CLAUDE.md держится на 180 строках. Всё специализированное - стили под разные форматы текста, шаблоны под отдельные задачи, проверочные списки - переехало в ~/.claude/skills/ и в отдельные Markdown-файлы, которые Claude читает только когда конкретно туда смотрит. Минус 60-70% базы по сравнению с тем, как было два месяца назад.

Подробнее про структуру файла и шаблон под Next.js-проект - в инструкции Как настроить CLAUDE.md в 2026: готовый шаблон и 6 правил.

Это паттерн с самой плохой видимостью снаружи, потому что снаружи незаметен. Claude не «помнит» предыдущие сообщения в смысле кэша - на каждом новом сообщении модель перечитывает весь диалог сначала, чтобы поддержать связность. Cherny назвал это в 13% бюджета.

Jenny Ouyang в посте про token optimization описала это так: 50-е сообщение стоит экспоненциально больше, чем 5-е, потому что Claude сначала проходит все 49 предыдущих. Длинные сессии превращаются в топку токенов.

Правило, которое сработало: новый чат на каждую новую задачу. Если задача длинная и нужна история - /compact, чтобы суммаризовать прошлое в короткий summary и продолжить с него. Я мерил: после /compact контекст падает с 90K до 25-30K на ту же логику задачи.

До декабря 2025 года это была самая большая утечка. Каждый подключённый MCP-сервер регистрировал в контекст ВСЕ свои инструменты с описаниями, ещё до того, как ты вызвал хоть один. Шесть серверов = 98 700 токенов окна, 49%.

Anthropic выпустил функцию Tool Search. Joe Njenga в замере на Medium показал эффект:

«Функция Tool Search дала 46.9% сокращения потребления контекста MCP - с 51 000 до 8 500 токенов. Раньше каждый инструмент с каждого подключённого сервера предзагружался в окно контекста ещё до того, как ты начал печатать.»

В docs Anthropic описание сейчас такое: определения MCP-инструментов отложены по умолчанию, в контекст попадают только имена, пока Claude не вызовет конкретный. Запусти /context, чтобы увидеть, что съедает место. Где возможно - предпочитай CLI: gh, aws, gcloud, sentry-cli всё ещё эффективнее MCP-серверов, потому что не добавляют per-tool описание.

Что я сделал:

Обновил Claude Code до версии с Tool Search (все актуальные после декабря 2025).
В /mcp оставил только два сервера, которые использую постоянно - Playwright (для e2e-тестов) и shadcn (для генерации интерфейсов).
Заменил GitHub MCP на CLI gh. То же самое работает, не жрёт окно.

Если у тебя сейчас в /context MCP стоит выше 30K - значит, либо старая версия Claude Code, либо подключено много неиспользуемых серверов. Иди в /mcp и отключай.

Какие MCP-серверы реально нужны вайб-кодеру и как их разумно настроить - разобрал в инструкции MCP-серверы Claude Code в 2026: 7 готовых связок и пошаговая установка.

В русскоязычных блогах часто всплывают советы, которые на коротком окне дают эффект, а в долгую ломают рабочий процесс. Я наступил на каждый из них хотя бы один раз. Разбираю три самых частых.

Самая популярная глупость в комментах под постами про экономию. Да, MCP исторически жгли до 49% контекста. После Tool Search упало до 8-15%. И MCP даёт реальные инструменты, которые иначе пришлось бы пилить руками.

Удалить все MCP = вернуться к ручной работе. Я как-то отключил Playwright «для эксперимента» - на следующий день потратил час на ручные скриншоты страниц, которые Playwright делает за минуту. Сэкономил 12K токенов в контексте, потерял час времени и несколько долларов на дополнительных запросах. Невыгодно.

Правильно: оставь только MCP, которыми реально пользуешься регулярно. Остальные подключаешь на одну задачу, /mcp disconnect сразу после.

Звучит логично: если CLAUDE.md грузится на каждом запросе - не будем её грузить. На практике без CLAUDE.md ты каждое сообщение начинаешь с тех же инструкций руками, плюс Claude забывает контекст между сообщениями.

Это больше токенов, не меньше - просто они идут по другому каналу. Вместо 14% бюджета на компактную CLAUDE.md ты тратишь 20-25% на повторяющиеся инструкции в каждом сообщении плюс на ответы Claude, который не знает контекста и переспрашивает.

Правильно: держи CLAUDE.md компактной (100-200 строк), ядро в ней, специализированное - в Skills. Подгружается только то, что нужно для текущей задачи.

Plan Mode - отличный инструмент для сложных задач, где нужно сначала разведать кодовую базу и предложить план. Но он тратит в среднем в 7 раз больше токенов при работе через agent teams, и это написано в Anthropic docs (code.claude.com/docs/en/costs):

«Команды агентов в Plan Mode потребляют примерно в 7 раз больше токенов, чем обычные сессии: каждый из них держит своё контекстное окно и запускается как отдельный экземпляр Claude.»

На задаче «поправь опечатку в README» Plan Mode жжёт в 7 раз больше, чем прямая правка. На задаче «придумай архитектуру нового модуля с ролями пользователей и внешними интеграциями» Plan Mode экономит часы работы и десятки тысяч токенов на потом - но это другой класс задач.

Правильно: Plan Mode - для задач от 30 минут работы. Для коротких - прямой запрос.

Один паттерн, который почти не обсуждается в RU-выдаче. Claude Code запускает фоновый процесс, который суммирует прошлые сессии для команды claude --resume. Процесс работает даже когда ты не пишешь - пока крышка ноутбука закрыта, пока ты в зуме на встрече. Anthropic в docs пишет: обычно меньше $0.04 за сессию.

Четыре цента - не катастрофа. Но если у тебя 10 открытых сессий в день - это $0.40 пассивных расходов, $12 в месяц на холостом ходу. Закрывай сессии, которые тебе не нужны прямо сейчас. Восстановить можно через /resume по индексу - не обязательно держать их открытыми.

Второй скрытый паттерн - agent teams растут нелинейно. Каждый параллельный участник в Plan Mode загружает свой системный налог 19K + свою копию CLAUDE.md + свои MCP. Пять участников = пять параллельных сессий, цифра 7× в docs - это среднее. Держи команды по 2-3 участника, Opus только для координирующего лидера, остальным Sonnet или Haiku.

Не всегда чистка - самое выгодное действие. Если 80% задач - рутинные правки, переход с Opus на Sonnet даёт минус 60-70% расхода на ту же задачу, а с Sonnet на Haiku - ещё минус 80%. Считай по задаче.

Раскладка на 27 мая 2026 за миллион input-токенов: Opus 4.7 - $15 (архитектура, сложная отладка), Sonnet 4.5 - $3 (80% обычных задач кодинга), Haiku 4.5 - $1 (форматирование, рутинные правки, subagent-задачи).

Моя настройка: дефолт - Sonnet 4.5 через /config → default model, /model opus руками на сложных задачах, /model haiku для тестов и форматирования. /effort low отдельно от модели: можно быть на Opus с low и получить мощную модель с минимумом thinking - для быстрых ответов на средние задачи.

Правило выбора простое. Контекст забит больше 50% - сначала чистить, потом смотреть на модель. Контекст ок, задачи сложные - Opus с нормальным effort. Контекст ок, задачи рутинные - Haiku.

Если ты дочитал до этой точки и не открыл /context - открой сейчас. Замер до чистки нужен только для одной цели: через 15 минут увидеть, сколько ты освободил. Что не мерится, то не управляется.

Дальше по пунктам.

Сначала чистка, потом смена тарифа. Max 20x за $200 не починит раздутый контекст - окно одно и то же. Сначала срежь свои 40-50%, потом смотри, нужна ли тебе бóльшая квота.
CLAUDE.md - не свалка. 100-200 строк ядра, всё специализированное в Skills. Сразу минус 5-8K с каждого запроса.
MCP - на одну задачу. Постоянно подключённых максимум 2-3. Остальные подключаешь, делаешь работу, /mcp disconnect. Привычка занимает неделю, экономит десятки тысяч токенов в день.
/clear после большого чтения. Прочитал гигантский файл для одной задачи и больше он не нужен - не оставляй в контексте «на всякий случай», начинай новый чат.
/context каждые 20-30 минут. Это привычка, не одноразовое действие.

Контекстное окно у нас не вырастет в 2026 году в десять раз. Anthropic держит 200K на всех планах сознательно: на длинных окнах модели «теряют» важное в середине, явление называется context rot. Чистый контекст становится постоянным навыком вайб-кодинга. Как знание Git для программиста: учится один раз, пользуешься всю жизнь.

Сколько у тебя сейчас в /context на свежей сессии Claude Code: больше или меньше 30K? И какой пункт чек-листа удивил больше всего? Напиши в комментариях - отвечаю в первые часы после публикации.

Чистка токенов Claude Code за 15 минут: -50% к расходу

8 шагов чистки за 15 минут: чек-лист

Куда уходит первая треть до твоего первого слова

Три главные утечки: CLAUDE.md, история диалога, MCP

Паттерн 1. CLAUDE.md перечитывается перед каждым сообщением

Паттерн 2. История диалога перечитывается на каждом ответе

Паттерн 3. MCP-серверы - историческая боль и что изменилось в декабре 2025

Антипаттерны RU-выдачи: советы, которые ломают расход вместо экономии

«Удали все MCP, они жгут токены»

«Не используй CLAUDE.md, всё пиши прямо в промпте»

«Всегда работай через Plan Mode»

Скрытые расходы: суммаризация на холостом ходу

Когда чистка выгоднее смены модели

Что я бы сделал на твоём месте