ARC-AGI-3: новый бенчмарк, который не прошли GPT-5.4 и Gemini 3.1

Официальный анонс бенчмарка ARC-AGI-3 зафиксировал критический разрыв между человеческим интеллектом и современными нейросетями. В условиях, где обычные люди показывают 100% результат, топовые модели (включая Gemini 3.1 и GPT-5.4) не смогли преодолеть даже 1%.

В отличие от стандартных тестов, которые оценивают накопленные в процессе обучения знания, ARC-AGI-3 проверяет способность ИИ адаптироваться к абсолютно незнакомой среде без предварительной базы. Это проверка умения строить гипотезы с нуля и гибко менять их в зависимости от ситуации.

Тестирование выявило фундаментальные ограничения текущих архитектур:

— ИИ не может осознать контекст происходящего и выстроить логическую цепочку действий.

Модели склонны фанатично придерживаться своей первой (часто ошибочной) гипотезы, не имея возможности пересмотреть её при изменении условий.
Нейросети по-прежнему не способны эффективно предсказывать развитие событий в нестандартных сценариях.

ARC-AGI-3 становится новым золотым стандартом в индустрии. Если предыдущие бенчмарки покорялись ИИ за рекордно короткие сроки, то здесь индустрии предстоит решить фундаментальную задачу: научить машины не просто воспроизводить заученное, а мыслить адаптивно. Скорость прогресса в преодолении этого 1% барьера станет главным индикатором реального приближения к уровню AGI.

Проверить себя можно тут (а то вдруг в душе вы ИИ).

Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT.