Проводят выборы в Minecraft, но не могут играть в Doom и «Цивилизацию»: тесты ИИ-моделей в играх

Anthropic, Google и частные исследователи анализируют, как модели решают головоломки в одиночку и работают в команде.

Модели тестируют на Super Mario Bros. Дольше всех играет Claude 3.7 Sonnet от Anthropic. Источник: Hao AI Lab

После выхода GPT-4.5 в марте 2025 года один из основателей и бывший исследователь OpenAI Андрей Карпатый сказал, что теперь всё сложнее определить лучшую модель из нескольких похожих. Он назвал этот этап «кризисом оценки».
Игры же выявляют «победителя». Они проверяют возможности «рассуждающих» моделей решать головоломки, ориентироваться в новой среде и адаптироваться, считают исследователи из Anthropic.

В мае 2025 года модель Gemini 2.5 Pro от Google прошла игру Pokemon Blue 1996 года. На это у неё ушло больше 800 часов, процесс транслировался на Twitch.
Claude 3.7 Sonnet от Anthropic дошла до финальной битвы в Pokemon Red, но полностью пройти игру до сих пор не смогла. Claude «не обучали играть в игры», но благодаря «рассуждениям» она поняла, как вести бой и перемещаться по локациям.

Gemini 2.5 Pro побеждает в Pokemon Blue. Источник: Sundar Pichai

Другие исследователи запустили платформу VideoGameBench, где тестируют нейросети в играх 1990-х. Пока ни одна модель не продвинулись дальше самого начала в Civilization I, The Need for Speed и Doom II.

GPT-4o играет в Doom II в версии, где игра приостанавливается, пока агент думает. Источник: VideoGameBench

У моделей есть трудности со стратегическим планированием, пространственным мышлением в «сложных» средах и пониманием целей в долгосрочной перспективе, пишут исследователи.

Gemini 2.5 Pro продвинулась дальше других ИИ-агентов, она дошла до первого мини-босса в игре Kirby's Dream Land для GameBoy. Источник: VideoGameBench

В марте 2025 года ИИ-энтузиасты разработали тест на креативность нейросетей Minecraft Benchmark. Пользователи выбирают лучшую «постройку» из двух, не зная, какая модель её сделала. На основе этих «симпатий» составляют рейтинг моделей.

Перевёрнутый город и планета Земля, сделанные GPT-4.1:

Стол и фигура, созданная по запросу «Твоё представление о самом себе», от Claude Opus 4:

Другие исследователи из Project SID подключили к игре 1000 ИИ-агентов. Они сорганизовались в деревню и собрали 32% всех доступных предметов Minecraft — в пять раз больше, чем модели поодиночке.

Отрывок из ролика о проекте. Источник: Project SID

Они выстроили подобие «социальной иерархии», сохраняли и распространяли «религию», заданную в системной инструкции, а также создали рынок с валютой в виде драгоценных камней.
Модераторы добавили налоговую систему, и ИИ-агенты соблюдали её, меняя ставки голосованием, если в «обществе менялось настроение».

В мае 2025 года журнал Science опубликовал результаты исследования, в котором около 100 ИИ-агентов на базе Claude играли в наименования. Ботов по очереди объединяли в пару, они должны были выбрать один и тот же символ или слово из списка, в противном случае их наказывали.
ИИ-агенты научились договариваться, что будут называть, а в некоторых тестах у них вырабатывалась «коллективная предвзятость» к «плохим» символам.
После учёные добавили к ним «небольшую группу» новых ИИ-моделей. Их запрограммировали призывать сменить устоявшийся набор символов. Они смогли склонить большинство на свою сторону и устроить «революцию».
Исследование показывает возможное поведение «нового вида агентов», с которыми людям придётся «сосуществовать» в обществе, сказал один из авторов Андреа Барончелли.

Почему стали появляться методы тестирования ИИ на играх