GPT-5.3-Codex: первая модель, которая помогала создавать саму себя

Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять.

GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня.

А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь 😃

А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато!

Бенчмарки:

– Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный.

– SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику.

– OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%.

Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того).

Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи.

Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.”

На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще?

Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе.

Официальный релиз в блоге OpenAI.

Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!

Подписывайтесь на Telegram ИИволюция 👾.

1
Начать дискуссию