Новая GPT-5.2 поставила рекорд в быстроте и глубине в решении сложнейших задач. Есть что почитать

Недавний выпуск модели GPT-5.2 от OpenAI ознаменовался значительным прорывом, особенно в области рассуждений и решения сложных задач. Ключевым достижением стало установление

Новая GPT-5.2 поставила рекорд в быстроте и глубине в решении сложнейших задач. Есть что почитать

нового рекорда в бенчмарке ARC-AGI-2 (Abstract Reasoning Corpus - AGI version 2), который считается одним из сложнейших тестов для оценки уровня общего искусственного интеллекта (AGI).

Прорыв в абстрактном мышлении

Модель GPT-5.2 Pro достигла впечатляющего результата в 54,2% правильных ответов в тесте ARC-AGI-2. Этот бенчмарк специально разработан для проверки "подвижного интеллекта" (fluid intelligence) и способности ИИ решать новые логические головоломки без предварительного обучения на аналогичных примерах.

Этот результат почти вдвое превышает показатель предыдущего лидера (модели Gemini 3 Pro от Google, которая достигала около 45% на старых оценках) и почти в три раза превосходит результат предыдущей версии OpenAI, GPT-5.1 (17,6%). Показатель в 54,2% приближает возможности ИИ к среднему человеческому показателю в этом тесте, который составляет около 60%.

Лидерство в профессиональных и академических задачах

Помимо абстрактного мышления, GPT-5.2 продемонстрировала существенные улучшения в других областях. Модель впервые решила 100% задач сложного математического экзамена AIME 2025 года без использования внешних инструментов.

В научном тесте GPQA Diamond, вопросы которого предназначены для выпускников ВУЗов, версия Pro набрала 93,2%. Во внутреннем бенчмарке OpenAI GDPval, имитирующем 44 типа задач из реальных профессий (например, финансы, юриспруденция), модель справилась на уровне или лучше экспертов в 70,9% случаев. В задачах по программной инженерии (SWE-bench) модель достигла уровня 80%.

Примеры задач AIME 2025:

Задача 1 (из AIME I 2025): Девять членов бейсбольной команды после игры пошли в кафе-мороженое. Каждый игрок выбрал один шарик шоколадного, ванильного или клубничного мороженого. Каждый вкус выбрал хотя бы один игрок, при этом количество игроков, выбравших шоколадное, было больше, чем количество выбравших ванильное, а количество выбравших ванильное было больше, чем количество выбравших клубничное. Пусть \(N\) — количество различных вариантов распределения вкусов между игроками, удовлетворяющих этим условиям. Найдите остаток при делении \(N\) на 1000.

Задача 3 (из AIME II 2025): Шестнадцать стульев расставлены в ряд. Восемь человек выбирают стулья так, чтобы ни один человек не сидел рядом с двумя другими людьми (т.е. между сидящими людьми должно быть хотя бы одно пустое место). Пусть \(S\) — количество подмножеств стульев, которые могут быть выбраны таким образом. Найдите остаток читать здесь.

Надежность и экономическая эффективность

Одним из ключевых практических улучшений является снижение количества "галлюцинаций" (неверных, выдуманных фактов) на 30% по сравнению с GPT-5.1, что повышает надежность модели для критически важных приложений.

Также была отмечена экономическая эффективность: стоимость выполнения сложных задач с помощью GPT-5.2 Pro снизилась в сотни раз по сравнению с предыдущими системами.

Запуск GPT-5.2, состоявшийся 11 декабря 2025 года, стал ответом OpenAI на усиление конкуренции со стороны Google Gemini 3 и Anthropic Claude 4.5. Этот качественный скачок переопределяет текущее состояние искусственного интеллекта и приближает индустрию к эпохе полноценного общего искусственного интеллекта.

Начать дискуссию