ChatGPT 5.2 вышла!
OpenAI выкатил GPT-5.2 и называет ее своей самой мощной моделью для профессиональной работы и долгоживущих агентных сценариев. По официальному блогу, упор сделали не на фишки ради фишек, а на качество задач, которые люди решают за деньги: таблицы, презентации, код, аналитика, длинные документы и цепочки действий с инструментами.
Что именно анонсировали
В статье описывают три режима одной линейки:
- ChatGPT 5.2 Instant
- ChatGPT 5.2 Thinking
- ChatGPT 5.2 Pro
Все три уже доступны в API как gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro.
В самом ChatGPT эти режимы начинают включать платным пользователям, позже доберутся до остальных. OpenAI честно пишет, что выкатывает обновление постепенно, чтобы не убить стабильность сервиса.
Что нового
Офисная и экспертная работа
На бенчмарке GDPval, который имитирует хорошо сформулированные задачи из 44 профессий, GPT-5.2 Thinking обыгрывает или не уступает живым специалистам в 70,9 % случаев. У GPT-5 там было 38,8 %.
По оценке Open AI, модель выдает такие решения более чем в 11 раз быстрее и дешевле 1 % относительно работы эксперта по рынку.
Код и инженерные задачи
На SWE-Bench Pro, где нужно чинить реальные репозитории, GPT-5.2 Thinking показывает 55,6 % решенных задач против 50,8 % у GPT-5.1.
На более простом SWE-bench Verified результат поднимается до 80 % против 76,3 %. Плюс внутренние метрики на задачах уровня младшего инвестиционного аналитика: оценка по их шкале выросла с 59,1 % до 68,4 %.
Длинный контекст
На собственном тесте MRCRv2, где модель должна вытащить нужный ответ из длинной простыни текста, GPT-5.2 Thinking почти везде резко опережает GPT-5.1. На входах до 256k токенов точность держится на уровне от 77 до 98 % в зависимости от длины, в то время как у прошлой модели показатели заметно ниже.
Математика, наука, абстрактное мышление
По научным и олимпиадным задачам картина такая:
- GPQA Diamond (сложные вопросы по физике, химии, биологии) - 92,4 % у GPT-5.2 Thinking и 93,2 % у Pro.
- AIME 2025 - 100 % решенных задач, тогда как у GPT-5.1 было 94 %.
- FrontierMath (экспертная математика) - 40,3 % против 31 %.
- ARC-AGI-2, тест на абстрактное рассуждение - 52,9 % у GPT-5.2 Thinking против 17,6 % у GPT-5.1.
Визуальные интерфейсы и работа с картинками
GPT-5.2 примерно вдвое снижает ошибки при анализе графиков из статей и интерфейсов со скриншотов. На CharXiv Reasoning (вопросы по графикам) и ScreenSpot-Pro (скриншоты интерфейсов) разница между 5.2 и 5.1 особенно заметна.
Практическое применение
Таблицы и презентации
Модель лучше держит формат, структуру и деловой тон. В примерах OpenAI сравнивает таблицы про планирование штата и финансовые модели: у 5.2 аккуратнее формулы, более логичная разбивка по разделам и меньше ручной доработки.
Код
Партнеры вроде Windsurf, JetBrains и других говорят, что 5.2 позволяет заменить связку из нескольких агентов одним большим, который использует десятки инструментов и при этом проще в обслуживании. В блоге прямо пишут, что это "самый большой скачок" в агентном кодинге со времен GPT-5.
Агенты и tool calling
На Tau2-bench Telecom, где модель должна закрывать сценарии поддержки с помощью инструментов, GPT-5.2 Thinking получает 98,7 % против 95,6 % у GPT-5.1.
Для бизнеса это значит более устойчивые цепочки из запросов в CRM, биллинги и аналитические сервисы. Меньше развалов посреди сценария, когда агент забыл сделать один шаг.
Длинные проекты
За счет MRCRv2 и нового /compact режима в Responses API модель может выходить за пределы обычного окна контекста. Идея простая: можно кормить отчетами на сотни тысяч токенов и не резать их вручную.
Безопасность и ментальное здоровье
GPT-5.2 базируется на подходе safe completion, который обучает модель отвечать полезно и одновременно держаться в рамках правил.
На внутренних метриках для диалогов про психическое состояние, эмоциональную зависимость от ИИ и самоповреждение новые версии показывают более высокие оценки безопасности, особенно у Thinking по сравнению с прошлым поколением.
Параллельно начинают раскатывать модель, которая пытается оценить возраст пользователя и автоматически включать усиленную защиту для тех, кому меньше 18 лет.
Цены и доступ
В API:
- gpt-5.2 и gpt-5.2-chat-latest стоят 1,75 доллара за миллион входящих токенов и 14 долларов за миллион исходящих, при этом кэшируемый вход дешевле в 10 раз.
- gpt-5.2-pro заметно дороже, 21 доллар за миллион входа и 168 за миллион выхода.
OpenAI оставляет GPT-5.1, GPT-5 и GPT-4.1 в API и пока не объявляет даты отключения.
В ChatGPT подписка не дорожает, просто меняется стек моделей. GPT-5.1 еще какое-то время будет доступен как legacy, после чего его уберут.
Где уже смотреть на реальные результаты
Компания прямо пишет, что в ChatGPT обновление включают волнами. Сегодня могут получить доступ не все, особенно на личных аккаунтах.
Зато модель уже засветилась в рейтингах LMArena под именами gpt-5.2 и gpt-5.2-high. Там ее можно погонять в сравнении с Gemini 3, Claude Opus и другими моделями, посмотреть живые оценки пользователей и профиль по задачам вроде WebDev.
Сухая выжимка цифр
Ниже собрал ключевые числа из таблиц OpenAI:
Полностью анонс можно почитать тут.