GPT-5.2 – когда “код красный” оправдал себя

OpenAI выпустила GPT-5.2. И если предыдущие обновления были скорее эволюцией, то здесь чувствуется попытка выровнять позицию компании на фоне Opus 4.5 и Gemini 3 Pro. Внутри OpenAI, по разным данным, действительно включали “code red” на полную катушку, так что релиз явно готовился с целью “войти в дверь с пинка”.

GPT-5.2 – когда “код красный” оправдал себя

GPT-5.2 меньше спотыкается на длинных задачах, тянет больше контекста лучше внимание на длинном контексте, аккуратнее работает с кодом и инструментами, и в целом ведёт себя стабильнее. Именно эта стабильность и важна, потому что она напрямую влияет на то как мы используем AI в своих рабочих процессах.

Теперь по порядку что изменилось:

– В задачах GDPval (это когда модель решает реальные рабочие кейсы вроде анализа документов, таблиц, презентаций) GPT-5.2 Thinking показывает результаты на уровне и выше человеческого эксперта.

– На AIME 2025 модель впервые дала 100% правильных решений без инструментов. У 5.1 было около 94%, так что прирост чувствуется. Это не про красивые циферки. GPT-5.2 значительно реже ошибается в многошаговых расчётах и строгой логике.

– Переходим к коду. Здесь значительный и важный скачок. На SWE-Bench Pro модель поднимается до 55.6%, а на SWE-bench Verified до 80%. Opus 4.5 пока незначительно опережает (80.9%), но Gemini 3 Pro остался позади со своими 76%.

– В тестах MRCRv2 (ищем “иголку” в длинном контексте) GPT-5.2 почти не ошибается. Для больших проектов это критично: можно загружать длинные документы, протоколы, спецификации и не переживать что модель потеряет нить.

– Визуальное понимание. Ошибки на графиках, диаграммах и интерфейсах уменьшились примерно вдвое. Если вы работаете с UI, аналитикой или комбинированными данными — модель перестала «путать» элементы и их логику.

– Инструменты и агенты. Точность tool-calling в длинных цепочках выросла до ~98.7% (было 95.6 % у GPT-5.1). В реальности это означает меньше провалов в середине цепочки и более предсказуемую работу при автоматизации. Можно строить более стабильные многошаговые сценарии.

– Режимы работы: Instant, Thinking и Pro, тут всё привычно.

– По сложному reasoning картина стала яснее после ARC-AGI-2. У GPT-5.1 там было 17.6 %, у GPT-5.2 — уже 52.9 %, а версия Pro поднимается до 54.2 %. Это выводит GPT-5.2 вперёд и Opus 4.5, и Gemini 3 Pro именно в абстрактных задачах рассуждений, где требуется нестандартная логика и многошаговые решения.

– Opus 4.5 остаётся одним из лучших в коде (но нужно еще пощупать, посравнивать с GPT-5.2, его уже завезли во все AI IDE). Gemini 3 Pro всё ещё силён в мультимодальности. Восприятие изображений, сложных визуальных структур и сценариев у Google работает очень уверенно.

– Стоимость: ценник на 5.2 немного подрос по сравнению с 5.1.

– Рынок в целом оценивает релиз положительно. Хотя было много скепсиса на счет возможностей OpenAI, но время покажет. Ждем теперь ответочку от конкурентов, и так по кругу.

Детали о релизе: https://openai.com/index/introducing-gpt-5-2/

Подписывайтесь на Telegram ИИволюция 👾.

3
1 комментарий