🚀 Вышел Claude Opus 4.8, и он впервые обошёл GPT-5.5

Anthropic выпустила новую модель, и она впервые за долгое время обыграла свежий GPT-5.5 на реальных задачах. Мы с командой потестили пару дней, рассказываем, стоит ли оно вашего внимания.

📊 Что с цифрами

🟢 В коде Opus уверенно впереди. Когда ИИ сам правит реальные задачи в проекте, он обгоняет GPT-5.5 с заметным отрывом. Для тех, кто пишет код, это главный аргумент.

🟢 В обычной рабочей рутине (аналитика, документы, исследования) держит первое место и в прямом сравнении выигрывает у GPT-5.5 примерно в двух случаях из трёх, тратя при этом меньше токенов.

🟢 А в математике стал почти идеален: если прошлая версия решала олимпиадные задачи на 69%, то новая уже на 96.7%.

Честно скажу, не везде победа. В терминальных задачах GPT-5.5 пока держится впереди. Так что серебряной пули по-прежнему нет.

Но цифры это одно. Что по ощущениям?

🤖 Он стал агентнее

Вот это зацепило меня больше всего. Opus 4.8 перестал слепо выполнять задачу. Теперь он часто задаёт уточняющие вопросы, прежде чем кинуться в бой. Раньше модель могла уйти на 200 строк кода не в ту сторону, а сейчас останавливается и говорит: «слушай, тут подход не сработает, давай вот так».

В долгих рабочих сессиях это экономит кучу времени и нервов. Ощущение, будто рядом сидит вдумчивый напарник, а не исполнительный робот.

🔍 Веб-поиск, который наконец работает

Поиск в сети подтянули заметно. Покажу на конкретном примере.

Закинул задачу: «собери актуальные тарифы на топ-5 ИИ-подписок и подсвети, у кого можно оплатить без VPN». Раньше модель отдавала пару ссылок и общие фразы в духе «цены смотрите на сайте». Сейчас она сама прошлась по сайтам, сверила свежие цены и выдала готовую таблицу, где ещё и отметила, какие сервисы из РФ напрямую не оплатить. То есть сделала всю нудную работу за меня.

🔮 И самое интересное напоследок

В анонсе Anthropic вскользь упомянули про скорый выход модели Mythos. И если Opus 4.8 это аккуратная доработка, то Mythos обещают уже как полноценный скачок поколения.

Как только она выйдет, сразу разберём по косточкам. А вы уже успели потестить 4.8? Делитесь впечатлениями в комментариях 👇