ChatGPT 5.2 вышла!

OpenAI выкатил GPT-5.2 и называет ее своей самой мощной моделью для профессиональной работы и долгоживущих агентных сценариев. По официальному блогу, упор сделали не на фишки ради фишек, а на качество задач, которые люди решают за деньги: таблицы, презентации, код, аналитика, длинные документы и цепочки действий с инструментами.

ChatGPT 5.2 вышла!

Что именно анонсировали

В статье описывают три режима одной линейки:

  • ChatGPT 5.2 Instant
  • ChatGPT 5.2 Thinking
  • ChatGPT 5.2 Pro

Все три уже доступны в API как gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro.

В самом ChatGPT эти режимы начинают включать платным пользователям, позже доберутся до остальных. OpenAI честно пишет, что выкатывает обновление постепенно, чтобы не убить стабильность сервиса.

Что нового

Офисная и экспертная работа

На бенчмарке GDPval, который имитирует хорошо сформулированные задачи из 44 профессий, GPT-5.2 Thinking обыгрывает или не уступает живым специалистам в 70,9 % случаев. У GPT-5 там было 38,8 %.

По оценке Open AI, модель выдает такие решения более чем в 11 раз быстрее и дешевле 1 % относительно работы эксперта по рынку.

Код и инженерные задачи

На SWE-Bench Pro, где нужно чинить реальные репозитории, GPT-5.2 Thinking показывает 55,6 % решенных задач против 50,8 % у GPT-5.1.

На более простом SWE-bench Verified результат поднимается до 80 % против 76,3 %. Плюс внутренние метрики на задачах уровня младшего инвестиционного аналитика: оценка по их шкале выросла с 59,1 % до 68,4 %.

Длинный контекст

На собственном тесте MRCRv2, где модель должна вытащить нужный ответ из длинной простыни текста, GPT-5.2 Thinking почти везде резко опережает GPT-5.1. На входах до 256k токенов точность держится на уровне от 77 до 98 % в зависимости от длины, в то время как у прошлой модели показатели заметно ниже.

Математика, наука, абстрактное мышление

По научным и олимпиадным задачам картина такая:

  • GPQA Diamond (сложные вопросы по физике, химии, биологии) - 92,4 % у GPT-5.2 Thinking и 93,2 % у Pro.
  • AIME 2025 - 100 % решенных задач, тогда как у GPT-5.1 было 94 %.
  • FrontierMath (экспертная математика) - 40,3 % против 31 %.
  • ARC-AGI-2, тест на абстрактное рассуждение - 52,9 % у GPT-5.2 Thinking против 17,6 % у GPT-5.1.

Визуальные интерфейсы и работа с картинками

GPT-5.2 примерно вдвое снижает ошибки при анализе графиков из статей и интерфейсов со скриншотов. На CharXiv Reasoning (вопросы по графикам) и ScreenSpot-Pro (скриншоты интерфейсов) разница между 5.2 и 5.1 особенно заметна.

Практическое применение

Таблицы и презентации

Модель лучше держит формат, структуру и деловой тон. В примерах OpenAI сравнивает таблицы про планирование штата и финансовые модели: у 5.2 аккуратнее формулы, более логичная разбивка по разделам и меньше ручной доработки.

Код

Партнеры вроде Windsurf, JetBrains и других говорят, что 5.2 позволяет заменить связку из нескольких агентов одним большим, который использует десятки инструментов и при этом проще в обслуживании. В блоге прямо пишут, что это "самый большой скачок" в агентном кодинге со времен GPT-5.

Агенты и tool calling

На Tau2-bench Telecom, где модель должна закрывать сценарии поддержки с помощью инструментов, GPT-5.2 Thinking получает 98,7 % против 95,6 % у GPT-5.1.

Для бизнеса это значит более устойчивые цепочки из запросов в CRM, биллинги и аналитические сервисы. Меньше развалов посреди сценария, когда агент забыл сделать один шаг.

Длинные проекты

За счет MRCRv2 и нового /compact режима в Responses API модель может выходить за пределы обычного окна контекста. Идея простая: можно кормить отчетами на сотни тысяч токенов и не резать их вручную.

Безопасность и ментальное здоровье

GPT-5.2 базируется на подходе safe completion, который обучает модель отвечать полезно и одновременно держаться в рамках правил.

На внутренних метриках для диалогов про психическое состояние, эмоциональную зависимость от ИИ и самоповреждение новые версии показывают более высокие оценки безопасности, особенно у Thinking по сравнению с прошлым поколением.

Параллельно начинают раскатывать модель, которая пытается оценить возраст пользователя и автоматически включать усиленную защиту для тех, кому меньше 18 лет.

Цены и доступ

В API:

  • gpt-5.2 и gpt-5.2-chat-latest стоят 1,75 доллара за миллион входящих токенов и 14 долларов за миллион исходящих, при этом кэшируемый вход дешевле в 10 раз.
  • gpt-5.2-pro заметно дороже, 21 доллар за миллион входа и 168 за миллион выхода.

OpenAI оставляет GPT-5.1, GPT-5 и GPT-4.1 в API и пока не объявляет даты отключения.

В ChatGPT подписка не дорожает, просто меняется стек моделей. GPT-5.1 еще какое-то время будет доступен как legacy, после чего его уберут.

Где уже смотреть на реальные результаты

Компания прямо пишет, что в ChatGPT обновление включают волнами. Сегодня могут получить доступ не все, особенно на личных аккаунтах.

Зато модель уже засветилась в рейтингах LMArena под именами gpt-5.2 и gpt-5.2-high. Там ее можно погонять в сравнении с Gemini 3, Claude Opus и другими моделями, посмотреть живые оценки пользователей и профиль по задачам вроде WebDev.

Сухая выжимка цифр

Ниже собрал ключевые числа из таблиц OpenAI:

ChatGPT 5.2 вышла!

Полностью анонс можно почитать тут.

Подписывайтесь на мой ТГ-канал, там я рассказываю про нейросети и автоматизацию. Вы там точно найдете много полезного!

5
1
1 комментарий