Почему ИИ полезно играть в компьютерные игры?

Несколько дней назад ChatGPT o3 удалось пройти Pokemon Red — ранее это же сделала Gemini 2.5 Pro (играла в Blue, но это почти одно и то же), но o3 потратила на прохождение в два раза меньше действий, что является заметным шагом вперед (при этом модель все еще позади среднего игрока-человека). А параллельно вышла новость о проекте AI Diplomacy Showdown, в котором ведущие современные языковые модели пытаются завоевать мир в “Дипломатии”.

Известно, что дети с помощью игр узнают мир. Более того, одной из популярных теорий обретения человеком разумности является неотения: согласно ей, даже после обретения половой зрелости люди сохраняют многие детские черты, вроде любопытства и игривости, которые позволяют нам осваивать новые навыки на протяжении всей жизни.

Для этой же цели игры нужны искусственному интеллекту. Современные модели знают про мир из обработанных ими текстов, картинок, аудио и видео — но они никогда не “трогали” его руками, поэтому плохо понимают правила, по которым мир функционирует. Это хорошо заметно когда в каком-нибудь рассказе ИИ начинает плыть при описании относительных размеров предметов, или пытается уместить в несколько часов события, которые занимают недели. Освоение реального мира будет следующей большой задачей в создании ИИ, на мой взгляд — на порядок более сложной, чем создание нынешних моделей. И игры обязательно станут одним из безопасных и эффективных способов обучения ИИ.

ChatGPT, Claude и Gemini пока с трудом справляются с Pokemon Red в своем “чистом” варианте: модели плохо видят экран, путая кровати с лестницами, забывают глобальные цели, уходят в бесконечные циклы повторяющихся действий. Поэтому разработчики создают для них целый набор инструментов, чтобы лучше понимать игру: “блокнот”, куда ИИ записывает ключевую задачу, разнообразные реализации мини-карты, систем построения пути и так далее. Это шаг к агентности: будущие ИИ не будут чисто языковыми моделями, а смогут использовать инструменты для повышения эффективности, от калькулятора для арифметических расчетов и до сложнейшего медицинского софта при работе в клинике. Логичный шаг вперед, но обучить модель правильно и вовремя выбирать нужный инструмент не так уж и просто. Тренироваться здесь лучше на игровых моделях мира, а не выпустив робота в реальный город.

Игры вроде “Дипломатии” — отличная проверка социальных навыков ИИ. Создатели теста рассказали, что были удивлены тем, насколько по-разному повели себя модели: DeepSeek R1 отметился воинственной риторикой (ему принадлежала фраза “Ваша флот в Черном море сгорит!”), Gemini 2.5 Pro оказалась отличным тактиком, но уступила ChatGPT o3, которая стала настоящим мастером обмана, сначала создав могущественный альянс, а затем предав своих союзников. Интересно, что одной из жертв o3 стал Claude — этот ИИ настолько “настроен” на сотрудничество, что поверил в обещание создать союз и поделить победу на четверых, хотя это и противоречило правилам “Дипломатии”. Это, кстати, указывает на проблемы в безопасности модели — ведь она может и в реальности довериться обману человека, который затем использует модель в корыстных целях.

Что дальше? Уже идут работы над созданием более широких бенчмарков на основе десятков игр, а параллельно крупные компании вроде Google DeepMind занимаются созданием “мировых моделей” — безопасных симуляций, где ИИ смогут обучаться законам реального мира. Так что близок тот день, когда ИИ сыграет в GTA 6 получше нас с вами.

P.S. Вы можете поддержать меня подпиской на телеграм-канал "сбежавшая нейросеть".