Ведущие исследователи в области ИИ создали единый тест для нейросетей

Он позволяет оценить насколько близко современные системы подошли к настоящему универсальному искусственному интеллекту (AGI). Расскажу, как выглядит тест и что показали первые результаты

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.agidefinition.ai%2F&postId=2298273" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Тест максимально прост: нейросеть должна решать задачи, которые требуют понять правило по минимуму примеров и применить его к неизвестной задаче, то есть учиться «на лету», как человек.

Тест ARC-AGI пытается научить нейросеть рассуждать и учиться, как человек, а результаты показывают, что современные модели пока сильно отстают от настоящего общего интеллекта.

Тест построен на основе головоломок с визуальными сетками и интерактивных мини-игр, где нейросеть видит несколько примеров преобразований и должна выявить внутреннее правило, чтобы преобразовать новую сетку или пройти новую игру.

🔥 Еще больше интересного в моем канале продуктовые штучки

В ARC-AGI-3 задачи теперь оформлены как мини-игры, где модели должны сами методом проб и ошибок понять условие и цель, без подсказок и языковых ориентиров.

Критерий — скорость и точность переноса правила на новую задачу: человек зачастую справляется за секунды или минуты, попробовав пару раз, в то время как ИИ требует гораздо больше попыток или вовсе не способен решить подобное.

Новейшие языковые и мультимодальные модели — GPT-4.5, Claude, Gemini, OpenAI o1-pro — набрали лишь 1–1,3% баллов на последней версии теста ARC-AGI-2, несмотря на успехи в других областях.

Даже самые продвинутые алгоритмы «проваливают» задачи, которые человек решает практически мгновенно: во многих интерактивных играх ИИ-агенты не набрали ни одного очка.

Результаты AGI: GPT-4 – 27%, GPT-5 –57% наглядно демонстрируют как быстрый прогресс, так и значительный разрыв, остающийся до AGI.

Рекордом стало достижение модели o3 OpenAI: 85% точности в «старых» тестах ARC-AGI, что впервые приблизило её к уровню человека, но новые, более сложные версии теста никто из ИИ пока не осилил.

Современные ИИ хорошо справляются с задачами, на которых обучались, но быстро учиться и обобщать правила на новые задачи не умеют. Это значит, что по-настоящему «общий» интеллект ещё не создан.

Тест ARC-AGI показал текущее ограничение: ИИ-агенты до сих пор не обладают когнитивной гибкостью человека, не умеют самостоятельно вычленять причинно-следственные связи.

Основной разработчик — Франсуа Шолле, а инициатор — фонд ARC Prize Foundation. Франсуа Шолле – известный исследователь ИИ и создатель фреймворка Keras. Первый тест ARC был предложен им в 2019 году и с тех пор дорабатывался в рамках программы ARC Prize Foundation.

К разработке новых версий подключались другие ведущие специалисты, но базовое руководство, архитектура и принципы теста — работа именно Шолле.

По текущим результатам ARC-AGI-2 и заявлениям ведущих исследователей, реалистичный коридор появления AGI — от нескольких лет до примерно десятилетия; самые смелые оценки называют 2026–2027, осторожные — 5–10+ лет, а консенсуса нет из‑за провалов моделей на новых версиях теста ARC‑AGI‑2.

На ARC‑AGI‑2 лучшие модели резко «просели»: метрика теперь учитывает не только точность, но и эффективность решения, и разрыв с человеком остаётся огромным, что указывает на отсутствие у моделей гибкого обобщения «на лету».

Прогнозы лидеров отрасли:

Дарио Амодеи (Anthropic) озвучивает горизонт 2026–2027 годов, опираясь на тренд масштабирования и инженерный прогресс.
Демис Хассабис (Google DeepMind) оценивает окно как 5–10 лет, подчёркивая неопределённость архитектурных прорывов.
Джеффри Хинтон называет вилку 5–20 лет, акцентируя отсутствие ясности по требуемым изменениям в архитектурах.

Автор ARC‑AGI, считает, что «самообучаемый ИИ» может быть изобретён примерно за 5 лет, но для широкого влияния потребуется ещё 10+ лет; при этом он подчёркивает, что высокие результаты на раннем ARC не означают человеческий интеллект. Он ожидает, что преемники ARC‑AGI останутся серьёзным испытанием для нынешних топ‑моделей, пока те не научатся эффективно, а не перебором, выявлять правила как люди.