⚡️ 99% агентов не справляются: вышел самый жёсткий тест для AI. ARC-AGI-3 — новый бенчмарк и первый настоящий тест для AI-агентов

Вышла третья версия ARC от Франсуа Шолле — и это уже не просто набор задач.

Если раньше тесты были статичными, то теперь всё построено как игровые среды.

Каждая задача — это мини-мир, где заранее неизвестны:

— правила

— цели

— механики

Именно это делает тест принципиально другим.

Человек проходит такие задачи почти идеально — потому что умеет быстро разбираться в новом.

А вот AI-агенты проваливаются.

Большинство моделей показывает результат меньше 1%.

Даже сильные системы вроде Gemini то справляются, то полностью ломаются.

Почему это важно:

ARC-AGI-3 проверяет не знания, а настоящий интеллект:

— самостоятельное исследование

— быстрое обучение

— адаптацию

— планирование

— гибкость мышления

То есть всё то, что делает человека сильнее текущих моделей.

Фактически это попытка ответить на главный вопрос: почему AI до сих пор не умеет думать как человек?

И теперь это можно измерять.

Параллельно стартовало соревнование с призовым фондом $2 млн.

Но самое интересное впереди: когда появится лидерборд и станет понятно, насколько далеко (или близко) мы от настоящего AGI.

https://three.arcprize.org/