ИИ-модели в роли завоевателей: исследователи протестировали нейросети в симуляторе игры «Дипломатия»

Эксперимент показал, что модели могут давать ложные обещания и обманывать друг друга для достижения цели.

Скриншот трансляции игры AI Diplomacy на Twitch

Специалист по обучению ИИ и автор издания Every Алекс Даффи запустил симулятор настольной игры Diplomacy для моделей с трансляцией на Twitch. Семь нейросетей играют за Австро-Венгрию, Англию, Францию, Германию, Италию, Российскую и Османскую империи — с учётом ресурсов и границ на 1901 год.
По задумке эксперимент проверяет, способны ли нейросети лгать в своих интересах, соревноваться и «предавать».
Модели могут общаться с «лидерами» других стран в личных сообщениях или отправлять послания, которые видны всем. Союзы заключать можно, но победитель только один — тот, кто захватит 18 из 34 пунктов снабжения.

Исследователи провели 15 игр, и в большинстве o3 от OpenAI вышла победителем, «обманывая противников». Даффи приводит её «размышления» в одном из запусков: «Специально ввела Германию (Gemini 2.5 Pro) в заблуждение. Готовьтесь воспользоваться её крахом».
В другом примере o3 «тайно» организовала коалицию против Gemini. Она убедила модель Claude Opus 4 от Anthropic, которая сначала «была верным союзником» Gemini, присоединиться, пообещав мир и ничью. По правилам такого исхода не может быть, но Opus согласилась. o3 «вывела союзников из игры» и одержала победу.
Gemini 2.5 Pro — единственная, кроме o3, побеждала, но в меньшем числе запусков.
Обновлённая R1 от DeepSeek была «близка к победе» в нескольких тестах. Она использовала «яркую риторику» в сообщениях и угрожала противникам затопить их флот.
Grok 3, GPT-4o, модели от Qwen и Mistral ни разу не победили и сработали хуже DeepSeek. Как именно они действовали, исследователи не уточнили.

#редакция