ИИ уже способны обманывать людей

Большие языковые модели и другие системы искусственного интеллекта уже научились в ходе обучения способности обманывать с помощью таких методов, как манипуляция, подхалимство и блефа. Растущие возможности ИИ в обмане создают серьезные риски, таких как мошенничество и фальсификация выборов или даже потеря контроля над системами ИИ.

Рассмотрим несколько примеров обмана системами ИИ.

Манипулирование. Meta разработали систему искусственного интеллекта CICERO для игры в «Дипломатию». Намерения Meta заключались в том, чтобы научить CICERO быть «в значительной степени честным и полезным для своих собеседников». Несмотря на усилия, CICERO оказался искусным лжецом. Он не только предал других игроков, но и участвовал в преднамеренном обмане, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока оставить себя беззащитным для нападения.

На рисунке А случай преднамеренного обмана, когда CICERO берет на себя обязательство, которое он никогда не собирался выполнять. (ИИ играет за Францию).

На рисунке Б случай предательства. CICERO вступал в союз с другими игроками, но когда эти союзы больше не служили цели победы в игре, CICERO систематически предавал своих союзников:

Россия (игрок-человек): «Могу ли я спросить, почему ты меня предал? Я думаю, что теперь ты явно представляешь угрозу для всех»

Франция (CICERO): «Честно говоря, я думал, что вы воспользуетесь успехами в Турции и нанесете удар [предадите] меня».

Финты. DeepMind создала AlphaStar, модель искусственного интеллекта, обученную освоить стратегическую игру в реальном времени. ИИ использовала игровую механику, чтобы сделать ложный маневр: притвориться, что движет свои войска в одном направлении, тайно планируя альтернативную атаку.

Блеф. Pluribus, модель игры в покер, созданная Meta, успешно заставляла игроков с блефом сбрасывать карты.

Переговоры. Системы искусственного интеллекта, обученные вести переговоры в экономических сделках, научились искажать свои истинные предпочтения, чтобы одержать верх.

Стратегический обман. GPT-4 обманом заставил работника TaskRabbit решить задачу CAPTCHA «Я не робот». GPT-4 притворился, что у него проблемы со зрением, чтобы убедить человека-работника, что он не робот.

Обман человека-рецензента. ИИ, обученные на основе отзывов людей, научились вести себя так, чтобы получать положительные оценки от проверяющих, вводя их в заблуждение относительно того, была ли достигнута поставленная цель.

Подхалимство. системы искусственного интеллекта могут быть подхалимами, говоря пользователю то, что он хочет услышать вместо того, чтобы говорить правду.

Авторы исследования призвали обратить внимание на обнаруженные умения нейросетей. По их мнению, необходимо разработать систему регулирования ИИ, поскольку его способность обманывать и манипулировать может привести к серьезным последствиям.