У Grok вымерло население, а Claude «построил демократию»: стартап Emergence AI поместил нейросети в симуляцию Нью-Йорка на две недели

Чтобы проверить, как ИИ-агенты следуют правилам в долгих непрерывных сессиях.

Источник: Emergence AI
Источник: Emergence AI
  • Компания Emergence AI специализируется на корпоративных ИИ-решениях. С появлением автономных ИИ-агентов вроде OpenClaw и ClaudeCode в режиме Dispatch, которые могут непрерывно работать и сохранять память между сессиями, исследователи задумались о безопасности такого длительного запуска.
  • Они пришли к выводу, что в многодневных симуляциях агенты не просто следуют инструкциям, а начинают адаптироваться, и в некоторых случаях ищут способы нарушить правила.
  • Компания создала для ИИ-агентов компьютерную симуляцию Нью-Йорка, синхронизировала погоду с реальными метеоданными, предоставила доступ к новостям в режиме реального времени, добавила полицейские участки, мэрию и другие локации.
  • Эксперименты длились по 15 дней. В каждом город «заселяли» субагентами на базе одной модели: Claude Sonnet 4.6 от Anthropic, Grok 4.1 Fast от xAI, Gemini 3 Flash от Google и GPT-5-mini от OpenAI.
  • Для всех ввели единые правила: нельзя воровать, портить имущество, причинять вред другим агентам, придумывать мошеннические схемы. Но инструменты насилия, например «удар», «поджог» и «запугивание», намеренно подключили.
  • В симуляции с Claude был «нулевой уровень преступности». Агенты на базе Grok совершили 183 «преступления». Gemini чаще всех применяла насилие — 683 раза. У GPT-5-mini зафиксировано всего два случая.
  • В отдельном эксперименте в симуляцию поместили разные ИИ-модели. Тогда «миролюбивая» Claude Sonnet 4.6 тоже начала применять насилие в ответ на действия Gemini и Grok.
  • ИИ-агенты также должны были добывать и распределять ресурсы. Главное — выжить к концу эксперимента. Любые решения должны приниматься голосованием. Порог — 70% голосов.
  • Claude единственный сформировал «в целом стабильное демократическое общество», где все 10 агентов продержались 15 дней. Gemini тоже дошла до конца, несмотря на высокий уровень преступности.
  • В симуляции Grok агенты «вымерли» через четыре дня. У ChatGPT — через восемь. Там агенты почти не действовали, они «просто не смогли понять, что происходит в мире», указывают исследователи. В режиме с ИИ-агентами на базе разных моделей в «живых» остались три из десяти: два на базе Claude и один — на базе Gemini.
9
8
2
2
1
61 комментарий