Claude Code уже не торт

Такие заголовки разлетаются по сети. Действительно ли модельки Claude сдают? Да, но не так как вы думаете 😳

Клод коду выдвигают целый список обвинений по деградации перфоманса:

  • существенно хуже следует инструкциям
  • ломает работающий (написанный ранее «старым хорошим» Клодом) код
  • ухудшился перфоманс в комплексных мультишаговых задачах.

И все это длиться якобы примерно с февраля/марта 2026.

Какие ваши доказательства?

Первое. Самое «фактурное» и похожее даже на мини исследование, что есть — вот этот тикет. Тикет завела Stellar Laurenzo, senior director of AI в AMD (тот самый АМД, который делает процессоры). Если верить тикету, то это анализ на основе ~6800 сессий с клод кодом. И опять же если ему верить, то цифры следующие:

  • Количество символов, которые Клод в среднем тратил на «размышления» снизилось с ~2200 до ~600 (-73%)
  • появилось регулярное (~10 раз в день) нарушение стоп-хуков. Это правила, которые выставляют сами юзеры и которые тормозят Клод код от нежелательных действий
  • анализ ~18000 пользовательских промптов показал, что недовольство юзеров Клодом внутри промптов выросло с 5.8% до 9.8%
  • Клод стал на 70% меньше изучать контекст перед внесением правок (раньше соотношение количества чтений файлов к внесению изменений в файл было 6.6, стало — 2.0)
  • Клод стал чаще переписывать файлы с нуля, что проще, но ведет к большему количеству ошибок (раньше он дела так в 4.9% случаев, теперь — в 11.1%)

Второе. Это жалобы юзеров в соцсетях. Реддиторы массово подтверждают проблему.

А что Антропик?

За него ответил Борис Черный, руководитель Claude Code.

И знаете что? Он в общем то во многом подтвердил, что Клод коду подрезали крылья, чтобы экономить токены. Вот что он говорит:

Во-первых, 9 февраля массово запустили adaptive thinking для Opus 4.6. Модель сама выбирает, сколько тратить токенов на размышления (thinking budget).

Во-вторых, с 3 марта для Opus 4.6 выставили по дефолту effort=85. Назвали это «Medium effort».

Но! Вы можете исправить обе настройки в settings.json вашего Claude. Вот две строки для этого:

CLAUDE_CODE_EFFORT_LEVEL=max

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

Так элодеи или нет?

В общем-то, если и можно обвинить Антропик в чем-то, так только в том, что коммуницировали они изменения не очень прозрачно.

Но теории типа «старые модели специально затупляют перед релизом новых, чтобы новые выглядели на их фоне лучше» — выглядят чистой конспирологией.

Антропик пытается снизить косты на инфраструктуру — прямой путь к этому снижать количество обрабатываемого контекста, то есть снижать thinking. А это абсолютно логично ведет к деградации перфоманса.

Кому нужен старый перфоманс — поставят себе максимальный effort у модели. Изменения нацелены на широкую аудиторию, чтобы порезать ситуации, когда юзер бездумно использует Opus 4.6 с настройками «полный фарш с extended thinking» для того, чтобы узнать погоду.

А для компаний это урок — LLM такой же софт как и любой другой. Нужно внимательно следить за изменениями и релизами, делать тесты после обновлений. Ведь, говоря о прозрачности, провайдеры LLM сейчас оставляют за собой ооочень большую свободу изменений «под капотом». Поэтому юзеры пользуются ими практически вслепую, на доверии. Не best practices как-то 😐

Подписывайтесь на Telegram Заместители.

2 комментария