Ведущие исследователи в области ИИ создали единый тест для нейросетей
Он позволяет оценить насколько близко современные системы подошли к настоящему универсальному искусственному интеллекту (AGI). Расскажу, как выглядит тест и что показали первые результаты
Как выглядит тест ARC-AGI
Тест максимально прост: нейросеть должна решать задачи, которые требуют понять правило по минимуму примеров и применить его к неизвестной задаче, то есть учиться «на лету», как человек.
Тест ARC-AGI пытается научить нейросеть рассуждать и учиться, как человек, а результаты показывают, что современные модели пока сильно отстают от настоящего общего интеллекта.
Тест построен на основе головоломок с визуальными сетками и интерактивных мини-игр, где нейросеть видит несколько примеров преобразований и должна выявить внутреннее правило, чтобы преобразовать новую сетку или пройти новую игру.
🔥 Еще больше интересного в моем канале продуктовые штучки
В ARC-AGI-3 задачи теперь оформлены как мини-игры, где модели должны сами методом проб и ошибок понять условие и цель, без подсказок и языковых ориентиров.
Критерий — скорость и точность переноса правила на новую задачу: человек зачастую справляется за секунды или минуты, попробовав пару раз, в то время как ИИ требует гораздо больше попыток или вовсе не способен решить подобное.
Результаты тестирования нейросетей
Новейшие языковые и мультимодальные модели — GPT-4.5, Claude, Gemini, OpenAI o1-pro — набрали лишь 1–1,3% баллов на последней версии теста ARC-AGI-2, несмотря на успехи в других областях.
Даже самые продвинутые алгоритмы «проваливают» задачи, которые человек решает практически мгновенно: во многих интерактивных играх ИИ-агенты не набрали ни одного очка.
Результаты AGI: GPT-4 – 27%, GPT-5 –57% наглядно демонстрируют как быстрый прогресс, так и значительный разрыв, остающийся до AGI.
Рекордом стало достижение модели o3 OpenAI: 85% точности в «старых» тестах ARC-AGI, что впервые приблизило её к уровню человека, но новые, более сложные версии теста никто из ИИ пока не осилил.
О чем говорят результаты исследования?
Современные ИИ хорошо справляются с задачами, на которых обучались, но быстро учиться и обобщать правила на новые задачи не умеют. Это значит, что по-настоящему «общий» интеллект ещё не создан.
Тест ARC-AGI показал текущее ограничение: ИИ-агенты до сих пор не обладают когнитивной гибкостью человека, не умеют самостоятельно вычленять причинно-следственные связи.
Кто создатели теста
Основной разработчик — Франсуа Шолле, а инициатор — фонд ARC Prize Foundation. Франсуа Шолле – известный исследователь ИИ и создатель фреймворка Keras. Первый тест ARC был предложен им в 2019 году и с тех пор дорабатывался в рамках программы ARC Prize Foundation.
К разработке новых версий подключались другие ведущие специалисты, но базовое руководство, архитектура и принципы теста — работа именно Шолле.
По текущим результатам ARC-AGI-2 и заявлениям ведущих исследователей, реалистичный коридор появления AGI — от нескольких лет до примерно десятилетия; самые смелые оценки называют 2026–2027, осторожные — 5–10+ лет, а консенсуса нет из‑за провалов моделей на новых версиях теста ARC‑AGI‑2.
На ARC‑AGI‑2 лучшие модели резко «просели»: метрика теперь учитывает не только точность, но и эффективность решения, и разрыв с человеком остаётся огромным, что указывает на отсутствие у моделей гибкого обобщения «на лету».
Прогнозы лидеров отрасли:
- Дарио Амодеи (Anthropic) озвучивает горизонт 2026–2027 годов, опираясь на тренд масштабирования и инженерный прогресс.
- Демис Хассабис (Google DeepMind) оценивает окно как 5–10 лет, подчёркивая неопределённость архитектурных прорывов.
- Джеффри Хинтон называет вилку 5–20 лет, акцентируя отсутствие ясности по требуемым изменениям в архитектурах.
Автор ARC‑AGI, считает, что «самообучаемый ИИ» может быть изобретён примерно за 5 лет, но для широкого влияния потребуется ещё 10+ лет; при этом он подчёркивает, что высокие результаты на раннем ARC не означают человеческий интеллект. Он ожидает, что преемники ARC‑AGI останутся серьёзным испытанием для нынешних топ‑моделей, пока те не научатся эффективно, а не перебором, выявлять правила как люди.
Пожалуйста, поддержите меня, поставьте лайк! 🙏
#agi #искусственныйинтеллект #нейросети #arcagi #arcagi2 #arcprize #benchmarks #aievaluation #generalintelligence #reasoning #абстрактноемышление #обобщение #selflearning #aiagents #multimodal #ml #deeplearning #anthropic #deepmind #openai #gemini #claude #gpt #o3 #оценкамоделей #aiethics #aipolicy #безопасностьии #scalinglaws #airesearch #productmanagement #technews #russiaai #индустрияии #стартапы #инновации #futureofai #датасаенс #комплаенс #privacy #регуляцияданных