Opus 4.8 в Claude Code не стал умнее. Он стал чаще говорить «не уверен»

Opus 4.8 в Claude Code не стал умнее. Он стал чаще говорить «не уверен»

28 мая Anthropic выпустила Opus 4.8 с заявкой «в 4 раза реже пропускает дефекты в собственном коде». Звучит как скачок. Я открыл System Card, сравнил с разбором Simon Willison, потом три дня гонял 4.8 на трёх своих продуктах - Piratix AI, Aishka, Miss Laser.

Вывод оказался такой. Модель не дописывает код умнее. Она чаще отказывается от ответа, когда контекста не хватает. Заголовок «в 4 раза реже пропускает баги» технически правильный, по смыслу - про другое.

Дальше: что именно сказала Anthropic в объявлении, что нашёл Willison в System Card, готовый промпт под новое поведение модели и три дня замеров на боевых продуктах.

Что Anthropic сказала про Opus 4.8

В объявлении 28 мая Anthropic про главное улучшение Opus 4.8 пишет одной фразой:

«Opus 4.8 примерно в четыре раза реже своего предшественника позволяет недостаткам в собственноручно написанном коде остаться без замечания». - Anthropic, страница объявления

Подача в обзорах TechCrunch и MarkTechPost: «новая модель в 4 раза меньше пропускает баги». На этой подаче все вторичные статьи и построились - читатель закрывает страницу с ощущением «значит модель в 4 раза точнее».

Но Anthropic в той же странице рекомендует читать System Card. Если открыть его, картинка собирается иначе.

Что Willison нашёл в System Card

Simon Willison держит независимый блог про LLM с 2023 года. Каждый выпуск Anthropic он разбирает по System Card построчно. По Opus 4.8 он вытащил один абзац, на котором всё держится:

«Claude Opus 4.8 had the lowest incorrect-rate of the six models on every benchmark - the most direct measure of factual hallucination. It achieved this mainly by abstaining on questions about which it was uncertain rather than by answering more questions correctly.» - System Card Anthropic, цитируется в разборе Simon Willison

Русский перевод: «Claude Opus 4.8 показал самый низкий процент неверных ответов из шести моделей на каждом тесте. Это самая прямая мера фактических галлюцинаций. Модель добилась этого в основном за счёт воздержания от ответа в вопросах, где не уверена, а не за счёт того, что стала отвечать правильно на большее число вопросов».

Ключевая фраза - «mainly by abstaining». Модель не стала умнее. Она начала чаще говорить «не уверена» там, где раньше уверенно врала.

Тот же сюжет всплыл в продуктовом отзыве Bridgewater Associates для TechCrunch (май 2026): Opus 4.8 «поднимает руку», когда сомневается в данных. Для финансовой аналитики это критично - модель не должна молча работать с битым входом. Для вайб-кодинга та же польза: меньше функций, дописанных по неправильно понятому API.

Под капотом «4× меньше пропускает баги» означает «модель чаще отказывается от попытки». Это не одно и то же с «модель чаще угадывает правильно». Для практики разница большая.

Промпт, который вытаскивает «не уверен» вместо галлюцинации

Если хочешь получить от Opus 4.8 эту самую честность - на пустом промпте её не будет. На обычном «напиши мне функцию X» модель по-прежнему попробует написать. Чтобы она включила режим явного «не уверен», в промпт надо вшить разрешение отказаться.

Вот рабочий шаблон. Я гоняю его последние три дня на всех своих продуктах, заменил им стандартные описания задач:

Задача: <твоя задача> Контекст: - <ссылка на файл / описание системы> - <предыдущие попытки или ограничения> Правила: 1. Если для этой задачи в моём контексте не хватает данных - напиши, каких именно данных не хватает. Не догадывайся. 2. Если есть несколько способов реализовать, перечисли 2-3 с компромиссами. Не выбирай молча. 3. Если ты не уверен в API/синтаксисе/именах функций - явно скажи, что нужно проверить. Не подставляй правдоподобное. 4. Если я прошу написать тесты на функцию, которой не существует - скажи об этом. Не делай вид, что функция уже есть.

Эти 4 правила работают как «разрешение на честность». На стандартном промпте Opus 4.8 всё равно пытается угадать - модель по умолчанию обучена быть полезной. На таком промпте она получает явный сигнал «отказаться - это ОК, я этого жду» и переключается в режим System Card.

Что заметил на практике: ответ становится длиннее и медленнее, но вместо файла с тремя выдуманными импортами я получаю «по твоему контексту я не вижу определения handleAuth, нужен файл src/auth.ts или его spec». Это экономит час отладки.

Три дня на Piratix AI, Aishka и Miss Laser - что я увидел

Я держу три рабочих продукта: Piratix AI (генератор пиратского контента), Aishka (ассистент с TTS) и Miss Laser (CRM для салона лазерной эпиляции). Все три - живые, у пользователей. Хороший полигон для теста новой модели.

Три дня я переключил /model claude-opus-4-8 на основном и стандартный промпт заменил на шаблон выше. Считал не время, а количество «хороших отказов» против количества «неправильных уверенных правок».

Что увидел.

На Piratix AI мы делали миграцию с одной платёжной системы на другую. Раньше Opus 4.7 уверенно писал код под предполагаемое API новой системы, потом приходилось переделывать половину. Opus 4.8 на третьем шаге сказал: «я не вижу в твоём контексте схемы webhook для payouts, дай документацию или укажи путь к примеру». Это сэкономило примерно три часа на одной функции - я их потом проверил по списку правок в git.

На Aishka была боль с TTS-движком: Claude дописывал параметры функции, которой я не передавал. Получался код, который проходил syntax check, но падал в runtime. С Opus 4.8 после переключения на новый промпт это поведение исчезло. Модель пишет «такого параметра в твоём вызове нет, либо добавь его, либо я уберу из реализации».

На Miss Laser была обратная история. Тут с моделью я работал над аналитикой записей - там нужны быстрые гипотезы по таблицам, которые я ей описываю текстом. На таких задачах Opus 4.8 начал слишком часто отказывать. Спрашивает уточнения там, где Opus 4.7 уверенно делал предположение «таблица appointments скорее всего имеет client_id». На прототипе это раздражает.

Получается такая матрица.

  • Боевой код, где «уверенно мимо» равно часу отладки → Opus 4.8 окупается.
  • Прототипы и быстрые гипотезы, где скорость важнее точности → Opus 4.7 ещё пригодится.
  • Аналитика с пунктирным контекстом → Opus 4.8 заставляет писать ТЗ длиннее, но и итог точнее.

Похожее наблюдение у Claire Vo в её разборе для Lenny's Newsletter: она оставляет 4.7 для data-heavy сценариев и нагрузочного планирования. Расплывчатая задача с малым контекстом - у новой модели болевая точка, и Vo это формулирует с боевого опыта.

Где честность хуже галлюцинации

Это контр-интуитивный момент, который не всплывает в общих обзорах. Бывают сценарии, где «правдоподобная выдумка» полезнее «честного не знаю».

Первый сценарий - интерактивный пинг-понг с моделью, когда я гоняю гипотезы быстро. Если знаю, что 70% правок Claude отшелушит, мне дешевле получить 10 уверенных вариантов и выбрать хороший, чем 3 ответа «не уверен, уточни». На быстрых итерациях прототипа Opus 4.7 побеждает.

Второй - демо клиенту. Если показываю в живом режиме, как ИИ собирает функцию, фраза «я не уверен» в середине демо сбивает темп. Клиент видит «новый ИИ ничего не знает». Реальная разница 4.7 vs 4.8 здесь - вопрос компромисса между впечатлением и точностью. Демо часто побеждает точность.

Третий - поисково-исследовательские задачи, где я хочу, чтобы модель сама подняла гипотезы. Если у неё в контексте недостаточно данных, я хочу услышать «думаю, скорее всего это работает так-то». А не «дай мне полный контекст». На таких задачах честность вырезает половину пользы.

Что с этим делать: держать /model под рукой и переключаться. Для боевого кода в продакшене - Opus 4.8 + промпт с разрешением отказаться. Для прототипов, демо, гипотез - Opus 4.7 или Sonnet 4.6 в обычном режиме. Одна модель на все задачи - дисциплина 2024-го, в 2026 уже не работает.

Сюда же одно наблюдение, которое всплыло на трёх продуктах. На рутинных задачах с явным контекстом Opus 4.8 на /effort low или /effort medium пишет почти как Opus 4.7 на /effort high. То есть после перехода на 4.8 можно снизить уровень рассуждений на рутине и сэкономить токены без падения качества. Похожее писали в разборах сообщества по эффективности новой модели - проверь у себя на 5-7 типовых задачах, у меня сработало стабильно.

Workflow на 3 шага: как перейти на 4.8 без разочарования

Если хотите перейти и не получить «4.8 сломал мне рабочий процесс», вот workflow в 3 шага. Я прогнал его на трёх продуктах, ловушек минимум.

Шаг 1. Обновись на v2.1.156, не на v2.1.154.

В версии 154 был баг с thinking blocks, который ломал API на Opus 4.8. Anthropic закрыли его в 156. Перед сменой модели:

claude upgrade claude --version

Если ниже v2.1.156 - обновиться и перезапустить терминал.

Шаг 2. Включи переключение, не миграцию.

Не выкручивай всё в проекте на 4.8 сразу. Сделай две команды у себя в shell-алиасах:

alias claude48="claude --model claude-opus-4-8" alias claude47="claude --model claude-opus-4-7"

Так на боевом коде ты будешь вызывать claude48 с новой моделью + промптом-разрешением отказа, а на прототипах остаёшься с claude47. Через неделю будет понятно, чего у тебя больше.

Шаг 3. Шаблон промпта в CLAUDE.md.

Чтобы не вставлять 4 правила «разрешения на честность» в каждый промпт, положи их в CLAUDE.md в корне проекта (или в ~/.claude/CLAUDE.md глобально, если хочешь по всем проектам сразу). Это активируется автоматически при старте сессии. Шаблон выше, целиком в код-блоке - копируй как есть, подставляй задачу и контекст.

Через 5-7 рабочих дней появляется привычка - вместо «пиши функцию» писать «пиши функцию, не догадывайся, скажи если не хватает». Это и есть переключение в режим Opus 4.8.

Выводы

Три тезиса, которые остаются после трёх дней теста.

  1. «4× меньше багов» в Opus 4.8 - это про новое поведение «я не уверена», а не про прирост интеллекта. Польза реальная, но эффект для практики другой, чем продают вторичные обзоры.
  2. Чтобы получить эту честность, промпт должен её разрешить. Шаблон с явными правилами отказа переключает модель в режим System Card. Без шаблона модель по привычке догадывается.
  3. Не вся работа выигрывает от честности. На прототипах, демо и быстрых гипотезах Opus 4.7 пока живёт рядом. Один аккаунт - две модели через /model. Это дисциплина 2026.

Прогноз на 2026-2027: качество модели для боевого кода будут всё чаще измерять не по «сколько ошибок угадала», а по «сколько раз отказалась». Это уже видно по System Card-фрейму Anthropic и по продуктовым отзывам. У того, кто перестроит привычку «спроси - получи готовое» на «спроси - получи список открытых вопросов», на горизонте полугода окажется больше рабочих часов, чем у того, кто остался на старом сценарии.

Если хотите полный разбор Opus 4.8 - выпуск, тесты, цены, Dynamic Workflows, режим xhigh, инструкция переключения, - я писал отдельный материал: Opus 4.8 в Claude Code: что нового, цены и как переключиться в 2026.

А теперь вопрос к тебе. На своих проектах ты замечаешь, что Opus 4.8 чаще говорит «не уверен»? Где это работает лучше всего - на боевом коде, на демо, на прототипах? Напиши свой кейс в комментах, соберём общую матрицу «где новая честность окупается, где раздражает».

1
Начать дискуссию