⚡️ 99% агентов не справляются: вышел самый жёсткий тест для AI. ARC-AGI-3 — новый бенчмарк и первый настоящий тест для AI-агентов
Вышла третья версия ARC от Франсуа Шолле — и это уже не просто набор задач.
Если раньше тесты были статичными, то теперь всё построено как игровые среды.
Каждая задача — это мини-мир, где заранее неизвестны:
— правила
— цели
— механики
Именно это делает тест принципиально другим.
Человек проходит такие задачи почти идеально — потому что умеет быстро разбираться в новом.
А вот AI-агенты проваливаются.
Большинство моделей показывает результат меньше 1%.
Даже сильные системы вроде Gemini то справляются, то полностью ломаются.
Почему это важно:
ARC-AGI-3 проверяет не знания, а настоящий интеллект:
— самостоятельное исследование
— быстрое обучение
— адаптацию
— планирование
— гибкость мышления
То есть всё то, что делает человека сильнее текущих моделей.
Фактически это попытка ответить на главный вопрос: почему AI до сих пор не умеет думать как человек?
И теперь это можно измерять.
Параллельно стартовало соревнование с призовым фондом $2 млн.
Но самое интересное впереди: когда появится лидерборд и станет понятно, насколько далеко (или близко) мы от настоящего AGI.
В тг у себя показываю как запускать топ модели и рассказываю как применять ИИ в работе!
https://three.arcprize.org/