ChatGPT 5.2 вышла!

OpenAI выкатил GPT-5.2 и называет ее своей самой мощной моделью для профессиональной работы и долгоживущих агентных сценариев. По официальному блогу, упор сделали не на фишки ради фишек, а на качество задач, которые люди решают за деньги: таблицы, презентации, код, аналитика, длинные документы и цепочки действий с инструментами.

В статье описывают три режима одной линейки:

ChatGPT 5.2 Instant
ChatGPT 5.2 Thinking
ChatGPT 5.2 Pro

Все три уже доступны в API как gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro.

В самом ChatGPT эти режимы начинают включать платным пользователям, позже доберутся до остальных. OpenAI честно пишет, что выкатывает обновление постепенно, чтобы не убить стабильность сервиса.

На бенчмарке GDPval, который имитирует хорошо сформулированные задачи из 44 профессий, GPT-5.2 Thinking обыгрывает или не уступает живым специалистам в 70,9 % случаев. У GPT-5 там было 38,8 %.

По оценке Open AI, модель выдает такие решения более чем в 11 раз быстрее и дешевле 1 % относительно работы эксперта по рынку.

На SWE-Bench Pro, где нужно чинить реальные репозитории, GPT-5.2 Thinking показывает 55,6 % решенных задач против 50,8 % у GPT-5.1.

На более простом SWE-bench Verified результат поднимается до 80 % против 76,3 %. Плюс внутренние метрики на задачах уровня младшего инвестиционного аналитика: оценка по их шкале выросла с 59,1 % до 68,4 %.

На собственном тесте MRCRv2, где модель должна вытащить нужный ответ из длинной простыни текста, GPT-5.2 Thinking почти везде резко опережает GPT-5.1. На входах до 256k токенов точность держится на уровне от 77 до 98 % в зависимости от длины, в то время как у прошлой модели показатели заметно ниже.

По научным и олимпиадным задачам картина такая:

GPQA Diamond (сложные вопросы по физике, химии, биологии) - 92,4 % у GPT-5.2 Thinking и 93,2 % у Pro.
AIME 2025 - 100 % решенных задач, тогда как у GPT-5.1 было 94 %.
FrontierMath (экспертная математика) - 40,3 % против 31 %.
ARC-AGI-2, тест на абстрактное рассуждение - 52,9 % у GPT-5.2 Thinking против 17,6 % у GPT-5.1.

GPT-5.2 примерно вдвое снижает ошибки при анализе графиков из статей и интерфейсов со скриншотов. На CharXiv Reasoning (вопросы по графикам) и ScreenSpot-Pro (скриншоты интерфейсов) разница между 5.2 и 5.1 особенно заметна.

Таблицы и презентации

Модель лучше держит формат, структуру и деловой тон. В примерах OpenAI сравнивает таблицы про планирование штата и финансовые модели: у 5.2 аккуратнее формулы, более логичная разбивка по разделам и меньше ручной доработки.

Код

Партнеры вроде Windsurf, JetBrains и других говорят, что 5.2 позволяет заменить связку из нескольких агентов одним большим, который использует десятки инструментов и при этом проще в обслуживании. В блоге прямо пишут, что это "самый большой скачок" в агентном кодинге со времен GPT-5.

На Tau2-bench Telecom, где модель должна закрывать сценарии поддержки с помощью инструментов, GPT-5.2 Thinking получает 98,7 % против 95,6 % у GPT-5.1.

Для бизнеса это значит более устойчивые цепочки из запросов в CRM, биллинги и аналитические сервисы. Меньше развалов посреди сценария, когда агент забыл сделать один шаг.

За счет MRCRv2 и нового /compact режима в Responses API модель может выходить за пределы обычного окна контекста. Идея простая: можно кормить отчетами на сотни тысяч токенов и не резать их вручную.

GPT-5.2 базируется на подходе safe completion, который обучает модель отвечать полезно и одновременно держаться в рамках правил.

На внутренних метриках для диалогов про психическое состояние, эмоциональную зависимость от ИИ и самоповреждение новые версии показывают более высокие оценки безопасности, особенно у Thinking по сравнению с прошлым поколением.

Параллельно начинают раскатывать модель, которая пытается оценить возраст пользователя и автоматически включать усиленную защиту для тех, кому меньше 18 лет.

В API:

gpt-5.2 и gpt-5.2-chat-latest стоят 1,75 доллара за миллион входящих токенов и 14 долларов за миллион исходящих, при этом кэшируемый вход дешевле в 10 раз.
gpt-5.2-pro заметно дороже, 21 доллар за миллион входа и 168 за миллион выхода.

OpenAI оставляет GPT-5.1, GPT-5 и GPT-4.1 в API и пока не объявляет даты отключения.

В ChatGPT подписка не дорожает, просто меняется стек моделей. GPT-5.1 еще какое-то время будет доступен как legacy, после чего его уберут.

Компания прямо пишет, что в ChatGPT обновление включают волнами. Сегодня могут получить доступ не все, особенно на личных аккаунтах.

Зато модель уже засветилась в рейтингах LMArena под именами gpt-5.2 и gpt-5.2-high. Там ее можно погонять в сравнении с Gemini 3, Claude Opus и другими моделями, посмотреть живые оценки пользователей и профиль по задачам вроде WebDev.

Ниже собрал ключевые числа из таблиц OpenAI: