Opus 4.8 в Claude Code не стал умнее. Он стал чаще говорить «не уверен»
28 мая Anthropic выпустила Opus 4.8 с заявкой «в 4 раза реже пропускает дефекты в собственном коде». Звучит как скачок. Я открыл System Card, сравнил с разбором Simon Willison, потом три дня гонял 4.8 на трёх своих продуктах - Piratix AI, Aishka, Miss Laser.
Вывод оказался такой. Модель не дописывает код умнее. Она чаще отказывается от ответа, когда контекста не хватает. Заголовок «в 4 раза реже пропускает баги» технически правильный, по смыслу - про другое.
Дальше: что именно сказала Anthropic в объявлении, что нашёл Willison в System Card, готовый промпт под новое поведение модели и три дня замеров на боевых продуктах.
Что Anthropic сказала про Opus 4.8
В объявлении 28 мая Anthropic про главное улучшение Opus 4.8 пишет одной фразой:
«Opus 4.8 примерно в четыре раза реже своего предшественника позволяет недостаткам в собственноручно написанном коде остаться без замечания». - Anthropic, страница объявления
Подача в обзорах TechCrunch и MarkTechPost: «новая модель в 4 раза меньше пропускает баги». На этой подаче все вторичные статьи и построились - читатель закрывает страницу с ощущением «значит модель в 4 раза точнее».
Но Anthropic в той же странице рекомендует читать System Card. Если открыть его, картинка собирается иначе.
Что Willison нашёл в System Card
Simon Willison держит независимый блог про LLM с 2023 года. Каждый выпуск Anthropic он разбирает по System Card построчно. По Opus 4.8 он вытащил один абзац, на котором всё держится:
«Claude Opus 4.8 had the lowest incorrect-rate of the six models on every benchmark - the most direct measure of factual hallucination. It achieved this mainly by abstaining on questions about which it was uncertain rather than by answering more questions correctly.» - System Card Anthropic, цитируется в разборе Simon Willison
Русский перевод: «Claude Opus 4.8 показал самый низкий процент неверных ответов из шести моделей на каждом тесте. Это самая прямая мера фактических галлюцинаций. Модель добилась этого в основном за счёт воздержания от ответа в вопросах, где не уверена, а не за счёт того, что стала отвечать правильно на большее число вопросов».
Ключевая фраза - «mainly by abstaining». Модель не стала умнее. Она начала чаще говорить «не уверена» там, где раньше уверенно врала.
Тот же сюжет всплыл в продуктовом отзыве Bridgewater Associates для TechCrunch (май 2026): Opus 4.8 «поднимает руку», когда сомневается в данных. Для финансовой аналитики это критично - модель не должна молча работать с битым входом. Для вайб-кодинга та же польза: меньше функций, дописанных по неправильно понятому API.
Под капотом «4× меньше пропускает баги» означает «модель чаще отказывается от попытки». Это не одно и то же с «модель чаще угадывает правильно». Для практики разница большая.
Промпт, который вытаскивает «не уверен» вместо галлюцинации
Если хочешь получить от Opus 4.8 эту самую честность - на пустом промпте её не будет. На обычном «напиши мне функцию X» модель по-прежнему попробует написать. Чтобы она включила режим явного «не уверен», в промпт надо вшить разрешение отказаться.
Вот рабочий шаблон. Я гоняю его последние три дня на всех своих продуктах, заменил им стандартные описания задач:
Эти 4 правила работают как «разрешение на честность». На стандартном промпте Opus 4.8 всё равно пытается угадать - модель по умолчанию обучена быть полезной. На таком промпте она получает явный сигнал «отказаться - это ОК, я этого жду» и переключается в режим System Card.
Что заметил на практике: ответ становится длиннее и медленнее, но вместо файла с тремя выдуманными импортами я получаю «по твоему контексту я не вижу определения handleAuth, нужен файл src/auth.ts или его spec». Это экономит час отладки.
Три дня на Piratix AI, Aishka и Miss Laser - что я увидел
Я держу три рабочих продукта: Piratix AI (генератор пиратского контента), Aishka (ассистент с TTS) и Miss Laser (CRM для салона лазерной эпиляции). Все три - живые, у пользователей. Хороший полигон для теста новой модели.
Три дня я переключил /model claude-opus-4-8 на основном и стандартный промпт заменил на шаблон выше. Считал не время, а количество «хороших отказов» против количества «неправильных уверенных правок».
Что увидел.
На Piratix AI мы делали миграцию с одной платёжной системы на другую. Раньше Opus 4.7 уверенно писал код под предполагаемое API новой системы, потом приходилось переделывать половину. Opus 4.8 на третьем шаге сказал: «я не вижу в твоём контексте схемы webhook для payouts, дай документацию или укажи путь к примеру». Это сэкономило примерно три часа на одной функции - я их потом проверил по списку правок в git.
На Aishka была боль с TTS-движком: Claude дописывал параметры функции, которой я не передавал. Получался код, который проходил syntax check, но падал в runtime. С Opus 4.8 после переключения на новый промпт это поведение исчезло. Модель пишет «такого параметра в твоём вызове нет, либо добавь его, либо я уберу из реализации».
На Miss Laser была обратная история. Тут с моделью я работал над аналитикой записей - там нужны быстрые гипотезы по таблицам, которые я ей описываю текстом. На таких задачах Opus 4.8 начал слишком часто отказывать. Спрашивает уточнения там, где Opus 4.7 уверенно делал предположение «таблица appointments скорее всего имеет client_id». На прототипе это раздражает.
Получается такая матрица.
- Боевой код, где «уверенно мимо» равно часу отладки → Opus 4.8 окупается.
- Прототипы и быстрые гипотезы, где скорость важнее точности → Opus 4.7 ещё пригодится.
- Аналитика с пунктирным контекстом → Opus 4.8 заставляет писать ТЗ длиннее, но и итог точнее.
Похожее наблюдение у Claire Vo в её разборе для Lenny's Newsletter: она оставляет 4.7 для data-heavy сценариев и нагрузочного планирования. Расплывчатая задача с малым контекстом - у новой модели болевая точка, и Vo это формулирует с боевого опыта.
Где честность хуже галлюцинации
Это контр-интуитивный момент, который не всплывает в общих обзорах. Бывают сценарии, где «правдоподобная выдумка» полезнее «честного не знаю».
Первый сценарий - интерактивный пинг-понг с моделью, когда я гоняю гипотезы быстро. Если знаю, что 70% правок Claude отшелушит, мне дешевле получить 10 уверенных вариантов и выбрать хороший, чем 3 ответа «не уверен, уточни». На быстрых итерациях прототипа Opus 4.7 побеждает.
Второй - демо клиенту. Если показываю в живом режиме, как ИИ собирает функцию, фраза «я не уверен» в середине демо сбивает темп. Клиент видит «новый ИИ ничего не знает». Реальная разница 4.7 vs 4.8 здесь - вопрос компромисса между впечатлением и точностью. Демо часто побеждает точность.
Третий - поисково-исследовательские задачи, где я хочу, чтобы модель сама подняла гипотезы. Если у неё в контексте недостаточно данных, я хочу услышать «думаю, скорее всего это работает так-то». А не «дай мне полный контекст». На таких задачах честность вырезает половину пользы.
Что с этим делать: держать /model под рукой и переключаться. Для боевого кода в продакшене - Opus 4.8 + промпт с разрешением отказаться. Для прототипов, демо, гипотез - Opus 4.7 или Sonnet 4.6 в обычном режиме. Одна модель на все задачи - дисциплина 2024-го, в 2026 уже не работает.
Сюда же одно наблюдение, которое всплыло на трёх продуктах. На рутинных задачах с явным контекстом Opus 4.8 на /effort low или /effort medium пишет почти как Opus 4.7 на /effort high. То есть после перехода на 4.8 можно снизить уровень рассуждений на рутине и сэкономить токены без падения качества. Похожее писали в разборах сообщества по эффективности новой модели - проверь у себя на 5-7 типовых задачах, у меня сработало стабильно.
Workflow на 3 шага: как перейти на 4.8 без разочарования
Если хотите перейти и не получить «4.8 сломал мне рабочий процесс», вот workflow в 3 шага. Я прогнал его на трёх продуктах, ловушек минимум.
Шаг 1. Обновись на v2.1.156, не на v2.1.154.
В версии 154 был баг с thinking blocks, который ломал API на Opus 4.8. Anthropic закрыли его в 156. Перед сменой модели:
Если ниже v2.1.156 - обновиться и перезапустить терминал.
Шаг 2. Включи переключение, не миграцию.
Не выкручивай всё в проекте на 4.8 сразу. Сделай две команды у себя в shell-алиасах:
Так на боевом коде ты будешь вызывать claude48 с новой моделью + промптом-разрешением отказа, а на прототипах остаёшься с claude47. Через неделю будет понятно, чего у тебя больше.
Шаг 3. Шаблон промпта в CLAUDE.md.
Чтобы не вставлять 4 правила «разрешения на честность» в каждый промпт, положи их в CLAUDE.md в корне проекта (или в ~/.claude/CLAUDE.md глобально, если хочешь по всем проектам сразу). Это активируется автоматически при старте сессии. Шаблон выше, целиком в код-блоке - копируй как есть, подставляй задачу и контекст.
Через 5-7 рабочих дней появляется привычка - вместо «пиши функцию» писать «пиши функцию, не догадывайся, скажи если не хватает». Это и есть переключение в режим Opus 4.8.
Выводы
Три тезиса, которые остаются после трёх дней теста.
- «4× меньше багов» в Opus 4.8 - это про новое поведение «я не уверена», а не про прирост интеллекта. Польза реальная, но эффект для практики другой, чем продают вторичные обзоры.
- Чтобы получить эту честность, промпт должен её разрешить. Шаблон с явными правилами отказа переключает модель в режим System Card. Без шаблона модель по привычке догадывается.
- Не вся работа выигрывает от честности. На прототипах, демо и быстрых гипотезах Opus 4.7 пока живёт рядом. Один аккаунт - две модели через /model. Это дисциплина 2026.
Прогноз на 2026-2027: качество модели для боевого кода будут всё чаще измерять не по «сколько ошибок угадала», а по «сколько раз отказалась». Это уже видно по System Card-фрейму Anthropic и по продуктовым отзывам. У того, кто перестроит привычку «спроси - получи готовое» на «спроси - получи список открытых вопросов», на горизонте полугода окажется больше рабочих часов, чем у того, кто остался на старом сценарии.
Если хотите полный разбор Opus 4.8 - выпуск, тесты, цены, Dynamic Workflows, режим xhigh, инструкция переключения, - я писал отдельный материал: Opus 4.8 в Claude Code: что нового, цены и как переключиться в 2026.
А теперь вопрос к тебе. На своих проектах ты замечаешь, что Opus 4.8 чаще говорит «не уверен»? Где это работает лучше всего - на боевом коде, на демо, на прототипах? Напиши свой кейс в комментах, соберём общую матрицу «где новая честность окупается, где раздражает».