Проводят выборы в Minecraft, но не могут играть в Doom и «Цивилизацию»: тесты ИИ-моделей в играх
Anthropic, Google и частные исследователи анализируют, как модели решают головоломки в одиночку и работают в команде.
Почему стали появляться методы тестирования ИИ на играх
- После выхода GPT-4.5 в марте 2025 года один из основателей и бывший исследователь OpenAI Андрей Карпатый сказал, что теперь всё сложнее определить лучшую модель из нескольких похожих. Он назвал этот этап «кризисом оценки».
- Игры же выявляют «победителя». Они проверяют возможности «рассуждающих» моделей решать головоломки, ориентироваться в новой среде и адаптироваться, считают исследователи из Anthropic.
Модели тестируют на Super Mario Bros. Дольше всех играет Claude 3.7 Sonnet от Anthropic. Источник: Hao AI Lab
«Классические игры» для GameBoy и браузера
- В мае 2025 года модель Gemini 2.5 Pro от Google прошла игру Pokemon Blue 1996 года. На это у неё ушло больше 800 часов, процесс транслировался на Twitch.
- Claude 3.7 Sonnet от Anthropic дошла до финальной битвы в Pokemon Red, но полностью пройти игру до сих пор не смогла. Claude «не обучали играть в игры», но благодаря «рассуждениям» она поняла, как вести бой и перемещаться по локациям.
Gemini 2.5 Pro побеждает в Pokemon Blue. Источник: Sundar Pichai
- Другие исследователи запустили платформу VideoGameBench, где тестируют нейросети в играх 1990-х. Пока ни одна модель не продвинулись дальше самого начала в Civilization I, The Need for Speed и Doom II.
GPT-4o играет в Doom II в версии, где игра приостанавливается, пока агент думает. Источник: VideoGameBench
- У моделей есть трудности со стратегическим планированием, пространственным мышлением в «сложных» средах и пониманием целей в долгосрочной перспективе, пишут исследователи.
Gemini 2.5 Pro продвинулась дальше других ИИ-агентов, она дошла до первого мини-босса в игре Kirby's Dream Land для GameBoy. Источник: VideoGameBench
Minecraft
- В марте 2025 года ИИ-энтузиасты разработали тест на креативность нейросетей Minecraft Benchmark. Пользователи выбирают лучшую «постройку» из двух, не зная, какая модель её сделала. На основе этих «симпатий» составляют рейтинг моделей.
- Сейчас лидер — GPT-4.1, на втором месте Claude Opus.
Перевёрнутый город и планета Земля, сделанные GPT-4.1:
Стол и фигура, созданная по запросу «Твоё представление о самом себе», от Claude Opus 4:
- Другие исследователи из Project SID подключили к игре 1000 ИИ-агентов. Они сорганизовались в деревню и собрали 32% всех доступных предметов Minecraft — в пять раз больше, чем модели поодиночке.
Отрывок из ролика о проекте. Источник: Project SID
- Они выстроили подобие «социальной иерархии», сохраняли и распространяли «религию», заданную в системной инструкции, а также создали рынок с валютой в виде драгоценных камней.
- Модераторы добавили налоговую систему, и ИИ-агенты соблюдали её, меняя ставки голосованием, если в «обществе менялось настроение».
«Революции», «предубеждения» и умение договариваться — на примере «игры в слова»
- В мае 2025 года журнал Science опубликовал результаты исследования, в котором около 100 ИИ-агентов на базе Claude играли в наименования. Ботов по очереди объединяли в пару, они должны были выбрать один и тот же символ или слово из списка, в противном случае их наказывали.
- ИИ-агенты научились договариваться, что будут называть, а в некоторых тестах у них вырабатывалась «коллективная предвзятость» к «плохим» символам.
- После учёные добавили к ним «небольшую группу» новых ИИ-моделей. Их запрограммировали призывать сменить устоявшийся набор символов. Они смогли склонить большинство на свою сторону и устроить «революцию».
- Исследование показывает возможное поведение «нового вида агентов», с которыми людям придётся «сосуществовать» в обществе, сказал один из авторов Андреа Барончелли.
12 комментариев