AMD-аудит Claude Code - 3 паттерна деградации в production

AMD опубликовала аудит использования Claude Code в production.

Масштаб: 340 инженеров, 6 недель работы, 12 400 сессий. Это первый открытый production-аудит Claude Code таким объёмом. Не пост в reddit, не твит — инженерный блог компании с именем.

Нашли три паттерна деградации. Покажу каждый и что делать.

Паттерн 1. Context poisoning.

Claude Code начинает проседать после 80+ tool calls в одной сессии. Качество падает на 27-44% в зависимости от типа задачи. На кодовых задачах с длинной историей падение сильнее, на коротких — почти незаметно.

Причина: накопление нерелевантного контекста. Модель начинает тянуть за собой обрывки старых задач, путается в файлах, забывает исходную цель.

Что делать:

Session length limit. Не дольше 80 tool calls на одну задачу. После — новая сессия с кратким брифом.
Intermediate summaries. Раз в 30-40 tool calls делать «summary of progress» и скармливать следующим шагам.
Explicit context refresh. Команда «забудь всё, кроме X» в ключевых точках.

Паттерн 2. Loop stuckness.

В 15% сессий Claude Code повторяет одну и ту же ошибку, не замечая этого. Пример: пытается починить тест через изменение assertion вместо изменения логики. Переписывает одну и ту же строку 5 раз с разными, но эквивалентно неправильными вариантами.

Модель не видит, что она в петле. Сама не выходит.

Что делать:

Sanity check через две сессии. Если одна задача занимает больше трёх попыток — остановить, запустить вторую сессию с чистым контекстом и описанием проблемы.
Правило трёх. Три попытки с одним подходом — смена подхода. Не Claude Code решает, а вы.
Логирование подходов. «Что я уже пробовал» — явный список, который скармливается модели.

Паттерн 3. False confidence spike.

После 2-3 успешных итераций уверенность модели растёт, а точность падает. Визуально это выглядит как «всё идёт хорошо» — и именно в этот момент появляется самая коварная ошибка, потому что её не перепроверяют.

AMD поймал несколько случаев, когда код после успешных шагов компилировался, но внутри логика была сломана. Claude докладывал, что всё работает.

Что делать:

Внешняя валидация. После 2-3 успешных шагов обязательный тест или проверка вручную.
Не доверять «готово». Когда модель пишет «done» — проверять последний большой коммит, не весь поток.
Отдельный валидатор. Вторая сессия Claude или вторая модель читает результат первой.

Ответ Anthropic: работаем над context refresh. Частично исправлено в Opus 4.7. Независимое подтверждение — GitHub issue #42796, открытый в феврале-марте.

Что это значит в сумме:

Opus 4.7 полезно включить в рабочий процесс.
Паттерны деградации никуда не делись, с 4.7 просто медленнее.
Session hygiene перестаёт быть nice-to-have и становится обязательной частью workflow.

Чек-лист для Claude Code на неделю:

Ограничение длины сессии (80 tool calls).
Intermediate summary каждые 30-40 шагов.
Правило трёх попыток → смена подхода.
Внешняя проверка после 2-3 успехов подряд.
Логирование «что уже пробовал» для новых сессий.

Если начнёте замечать «Claude как-то странно себя ведёт» — скорее всего, это один из трёх паттернов. Применяйте чек-лист.

Больше разборов AI для бизнеса - в Telegram: Telegram