GPT-5.2 – когда “код красный” оправдал себя
OpenAI выпустила GPT-5.2. И если предыдущие обновления были скорее эволюцией, то здесь чувствуется попытка выровнять позицию компании на фоне Opus 4.5 и Gemini 3 Pro. Внутри OpenAI, по разным данным, действительно включали “code red” на полную катушку, так что релиз явно готовился с целью “войти в дверь с пинка”.
GPT-5.2 меньше спотыкается на длинных задачах, тянет больше контекста лучше внимание на длинном контексте, аккуратнее работает с кодом и инструментами, и в целом ведёт себя стабильнее. Именно эта стабильность и важна, потому что она напрямую влияет на то как мы используем AI в своих рабочих процессах.
Теперь по порядку что изменилось:
– В задачах GDPval (это когда модель решает реальные рабочие кейсы вроде анализа документов, таблиц, презентаций) GPT-5.2 Thinking показывает результаты на уровне и выше человеческого эксперта.
– На AIME 2025 модель впервые дала 100% правильных решений без инструментов. У 5.1 было около 94%, так что прирост чувствуется. Это не про красивые циферки. GPT-5.2 значительно реже ошибается в многошаговых расчётах и строгой логике.
– Переходим к коду. Здесь значительный и важный скачок. На SWE-Bench Pro модель поднимается до 55.6%, а на SWE-bench Verified до 80%. Opus 4.5 пока незначительно опережает (80.9%), но Gemini 3 Pro остался позади со своими 76%.
– В тестах MRCRv2 (ищем “иголку” в длинном контексте) GPT-5.2 почти не ошибается. Для больших проектов это критично: можно загружать длинные документы, протоколы, спецификации и не переживать что модель потеряет нить.
– Визуальное понимание. Ошибки на графиках, диаграммах и интерфейсах уменьшились примерно вдвое. Если вы работаете с UI, аналитикой или комбинированными данными — модель перестала «путать» элементы и их логику.
– Инструменты и агенты. Точность tool-calling в длинных цепочках выросла до ~98.7% (было 95.6 % у GPT-5.1). В реальности это означает меньше провалов в середине цепочки и более предсказуемую работу при автоматизации. Можно строить более стабильные многошаговые сценарии.
– Режимы работы: Instant, Thinking и Pro, тут всё привычно.
– По сложному reasoning картина стала яснее после ARC-AGI-2. У GPT-5.1 там было 17.6 %, у GPT-5.2 — уже 52.9 %, а версия Pro поднимается до 54.2 %. Это выводит GPT-5.2 вперёд и Opus 4.5, и Gemini 3 Pro именно в абстрактных задачах рассуждений, где требуется нестандартная логика и многошаговые решения.
– Opus 4.5 остаётся одним из лучших в коде (но нужно еще пощупать, посравнивать с GPT-5.2, его уже завезли во все AI IDE). Gemini 3 Pro всё ещё силён в мультимодальности. Восприятие изображений, сложных визуальных структур и сценариев у Google работает очень уверенно.
– Стоимость: ценник на 5.2 немного подрос по сравнению с 5.1.
– Рынок в целом оценивает релиз положительно. Хотя было много скепсиса на счет возможностей OpenAI, но время покажет. Ждем теперь ответочку от конкурентов, и так по кругу.
Детали о релизе: https://openai.com/index/introducing-gpt-5-2/
Подписывайтесь на Telegram ИИволюция 👾.