Claude Code уже не торт
Такие заголовки разлетаются по сети. Действительно ли модельки Claude сдают? Да, но не так как вы думаете 😳
Клод коду выдвигают целый список обвинений по деградации перфоманса:
- существенно хуже следует инструкциям
- ломает работающий (написанный ранее «старым хорошим» Клодом) код
- ухудшился перфоманс в комплексных мультишаговых задачах.
И все это длиться якобы примерно с февраля/марта 2026.
Какие ваши доказательства?
Первое. Самое «фактурное» и похожее даже на мини исследование, что есть — вот этот тикет. Тикет завела Stellar Laurenzo, senior director of AI в AMD (тот самый АМД, который делает процессоры). Если верить тикету, то это анализ на основе ~6800 сессий с клод кодом. И опять же если ему верить, то цифры следующие:
- Количество символов, которые Клод в среднем тратил на «размышления» снизилось с ~2200 до ~600 (-73%)
- появилось регулярное (~10 раз в день) нарушение стоп-хуков. Это правила, которые выставляют сами юзеры и которые тормозят Клод код от нежелательных действий
- анализ ~18000 пользовательских промптов показал, что недовольство юзеров Клодом внутри промптов выросло с 5.8% до 9.8%
- Клод стал на 70% меньше изучать контекст перед внесением правок (раньше соотношение количества чтений файлов к внесению изменений в файл было 6.6, стало — 2.0)
- Клод стал чаще переписывать файлы с нуля, что проще, но ведет к большему количеству ошибок (раньше он дела так в 4.9% случаев, теперь — в 11.1%)
Второе. Это жалобы юзеров в соцсетях. Реддиторы массово подтверждают проблему.
А что Антропик?
За него ответил Борис Черный, руководитель Claude Code.
И знаете что? Он в общем то во многом подтвердил, что Клод коду подрезали крылья, чтобы экономить токены. Вот что он говорит:
Во-первых, 9 февраля массово запустили adaptive thinking для Opus 4.6. Модель сама выбирает, сколько тратить токенов на размышления (thinking budget).
Во-вторых, с 3 марта для Opus 4.6 выставили по дефолту effort=85. Назвали это «Medium effort».
Но! Вы можете исправить обе настройки в settings.json вашего Claude. Вот две строки для этого:
CLAUDE_CODE_EFFORT_LEVEL=max
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1
Так элодеи или нет?
В общем-то, если и можно обвинить Антропик в чем-то, так только в том, что коммуницировали они изменения не очень прозрачно.
Но теории типа «старые модели специально затупляют перед релизом новых, чтобы новые выглядели на их фоне лучше» — выглядят чистой конспирологией.
Антропик пытается снизить косты на инфраструктуру — прямой путь к этому снижать количество обрабатываемого контекста, то есть снижать thinking. А это абсолютно логично ведет к деградации перфоманса.
Кому нужен старый перфоманс — поставят себе максимальный effort у модели. Изменения нацелены на широкую аудиторию, чтобы порезать ситуации, когда юзер бездумно использует Opus 4.6 с настройками «полный фарш с extended thinking» для того, чтобы узнать погоду.
А для компаний это урок — LLM такой же софт как и любой другой. Нужно внимательно следить за изменениями и релизами, делать тесты после обновлений. Ведь, говоря о прозрачности, провайдеры LLM сейчас оставляют за собой ооочень большую свободу изменений «под капотом». Поэтому юзеры пользуются ими практически вслепую, на доверии. Не best practices как-то 😐
Подписывайтесь на Telegram Заместители.