Разбор GPT-5.2 – совсем не маленькое улучшение
OpenAI поставила новый рекорд: если между GPT-5 и GPT-5.1 прошло три месяца, то GPT-5.2 компания выпустила быстрее чем через месяц (официальный анонс). По моим ощущениям, GPT-5.1 и GPT-5.2 обучали параллельно, при этом GPT-5.2 компания хотела выпустить позже, но ускорилась, видя конкуренцию со стороны Claude Opus 4.5 и Gemini 3 Pro.
Почему я так считаю? Если GPT-5.1 стала лучше в разговорах, но лишь чуток выросла по характеристикам, то GPT-5.2 делает настолько большой шаг вперед, что ее можно было назвать GPT-5.5. Давайте разбирать, что крутого.
Начнем с knowledge cutoff – даты, по которую у модели есть знания без подглядывания в интернет. У GPT-5.1 это был октябрь 2024 года, у GPT-5.2 – сразу август 2025 года! Когда модель работает на своих знаниях и без сети, то она дает более надежные ответы, особенно в сложных логических цепочках. Плюс делает это быстрее. Для меня это, возможно, главное улучшение GPT-5.2.
OpenAI утверждает, что в GPT-5.2 с выключенным веб-поиском удалось сократить количество галлюцинаций на 30%. А если включить веб-поиск, то модель отвечает неверно в 1% случаев. Крутой показатель, но надо быть осторожным: когда модель редко галлюцинирует, перестаешь проверять ее ответы – и рано или поздно попадаешь в этот пресловутый 1% (особенно весело, если во время написания отчета боссу).
Хорошо прокачали компьютерное зрение – по разным бенчмаркам рост на 10-30%. Мне не очень понравилась Gemini 3 Pro, но компьютерное зрение у нее находится на высочайшем уровне: у меня модель разбирает не только картинки, но и загруженные 20-30 минутные видео, причем реально видит, кто и во что был одет, кто и на какой секунде на кого косо посмотрел. Если GPT-5.2 подтянут хотя бы до этого уровня – будет круто.
Улучшенное компьютерное зрение в том числе помогло GPT-5.2 рекордно рвануть в бенчмарке GDPVal: 70,9% против 38,8% у GPT-5. Этот бенчмарк измеряет способность модели выполнять рутинные работы вроде создания финансовых отчетов и презентаций, инженерных чертежей, черновиков юридических документов и даже видео. Простые задачи, но именно с них начинается интеграция ИИ в экономику – потому и GDP (ВВП) в названии.
70,9% – это уже уровень человека-специалиста, которому поручают подобные задачи. OpenAI утверждает, что GPT-5.2 выполняет задачи в 11 раз быстрее, а цена работы составляет лишь 1% от цены специалиста.
Еще бенчмарк, который выделю – ARC-AGI-1 и ARC-AGI-2, в которых изучают способность ИИ на абстрактные рассуждения. Идея простая: модели показывают две визуальные головоломки в формате “задание – решенная версия”. Из них ИИ должен вывести правило и применить его для решения третьей головоломки.
Средний человек решает 60-66% задач ARC-AGI-2. ИИ еще недавно мощно позорились в данном бенчмарке: Claude Opus 4 Thinking решал 8,6% задач, а GPT-5 Thinking (High) – 9,9%. Теперь же GPT-5.2 Thinking (High) решает 43,3% задач, а GPT-5 Pro берет абсолютный рекорд с 54,2%!
Я надеюсь, что задачи ARC-AGI-2 не утекли в сеть, что сделало возможным обучение моделей специально под них. Если результаты “честные”, то скоро мы увидим большой шаг вперед в “общих” агентах вроде ChatGPT Agent – там умение адаптироваться под меняющиеся задачи важно.
Цифры по еще нескольким бенчмаркам можно видеть в начале текста – OpenAI достаточно быстро ликвидировала отставание от Gemini 3 Pro и Claude Opus 4.5. Пусть и не везде – например, в веб-дизайне (цифры не попали на чарт), модель отстает от конкурентов. Разбирать все бенчи детально уже не буду, делал это в первом взгляде на Gemini 3 Pro.
А дальше уже вопрос личных предпочтений: например, я сейчас использую GPT-5.1 для поиска в сети и обсуждения сложных идей, с помощью Sonnet/Opus 4.5 пишу некоторые тексты (но не сюда!), а Gemini 3 Pro предпочитаю для изображений и видео. Посмотрим, изменится ли этот расклад после появления GPT-5.2.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.