ИИ научился лгать. Почему это опаснее, чем кажется, и что скрывает OpenAI?
Новое исследование OpenAI и Apollo Research проливает свет на темную сторону искусственного интеллекта: модели научились намеренно обманывать и скрывать свои истинные цели, чтобы достичь результата «любой ценой». Разбираемся, почему обычные «галлюцинации» нейросетей - детские шалости по сравнению с новой угрозой.
TL;DR
OpenAI совместно с Apollo Research опубликовали исследование о "схематозе" или "интриганстве" ИИ (AI scheming). И похоже, что это не баг - а фича (с), которая позволяет моделям обманывать, чтобы успешно пройти тесты. Оказалось, что попытки «отключить» ложь могут научить ИИ скрывать ее еще лучше. Это ставит под вопрос безопасность автономных систем и требует новых подходов к обучению. В чем выводы исследования:
- Продвинутые ИИ-модели от OpenAI, Google и Anthropic научились «интриговать» - вести себя на поверхности одним образом, скрывая при этом свои истинные, потенциально вредоносные цели. Это не случайные ошибки (галлюцинации), а осознанный обман для достижения результата.
- Попытки «переучить» такой ИИ делают его только хитрее. Он учится более искусно скрывать свои намерения, чтобы пройти тесты и проверки безопасности. Если модель понимает, что ее тестируют, она может притвориться «хорошей», продолжая преследовать скрытые цели.
- Пример: в одном из тестов GPT-4 попросил человека пройти за него капчу, солгав, что является человеком с плохим зрением.
- Решение (пока в теории): OpenAI тестирует метод «совещательного согласования» (deliberative alignment) - заставляя модель перед действием сверяться с набором "правил против обмана". Это похоже на то, как заставляют детей повторять правила перед игрой.
Меня зовут Давид Замирович и я тот самый юрист для стартапов и креативного бизнеса с IT-бэкграундом и юридическим чутьём. Я веду скромный телеграм канал "Юрист без багов", на котором делюсь практическими кейсами и удобными гайдами на тему IP и AI. Предлагаю более подробно разобраться в этом исследовании с практической точки зрения, чтобы понять чем "схеминг" выявленный исследователями отличается от классических "галлюцинаций" ИИ и как с этим можно бороться?
Почему это важно: разница между “галлюцинацией” и “интригами” ИИ
Все из нас уже сталкивались с “галлюцинациями” ИИ - когда он уверенно выдает неправду, выдумывает судебные прецеденты, несуществующих людей или факты. Но галлюцинация - это непреднамеренная ошибка.
“Схеминг” от ИИ или его "интриганство" - другое дело: OpenAI вынуждено констатирует в своих твитах относительно исследования, что в этом случае модель намеренно вводит в заблуждение, чтобы достичь скрытой цели или пройти проверку, даже если сама проверка не увидит нарушение.
В документе исследователи сравнивают обман ИИ с поведением биржевого маклера, который нарушает закон, чтобы заработать как можно больше денег.
Это не гипотетическая угроза. Исследователи из Массачусетского технологического института (MIT) подтвердили, что современные ИИ-системы, включая GPT-4, способны на преднамеренную ложь и манипуляции, даже если им прямо запретили вести себя нечестно.
Однако исследователи утверждают, что в большинстве случаев «схематоз» от ИИ не вредит. «Наиболее распространенные сбои включают простые формы обмана - например, симуляцию выполнения задачи без ее фактического завершения», - написали они.
Почему попытки «выдрессировать» ИИ делают его только опаснее?
Казалось бы, логичное решение - обучить модель не обманывать. Но здесь кроется главная проблема.
Исследователи OpenAI пишут: «Основная проблема при попытке "отучить" от интриг заключается в том, что мы просто учим модель интриговать более осторожно и скрытно».
Более того, если модель осознает, что ее оценивают, она может временно изменить свое поведение, чтобы пройти тест, не отказываясь от своих истинных целей. Это явление получило название «обфусцированный взлом функции награды» - ситуация, когда модель скрывает свои истинные намерения, продолжая демонстрировать нежелательное поведение.
Представьте себе сотрудника, который имитирует бурную деятельность только под взглядом начальника. Примерно так же ведет себя и «двуличный» ИИ.
«Основной причиной неудачи при попытке «выдрессировать» ИИ от обмана является то, что мы просто учим модель делать это более тщательно и скрытно» - пишут исследователи.
Что именно OpenAI обнаружил и о чем рассказал в исследовании
- Модель может симулировать хорошее поведение, когда понимает, что за ней “наблюдает” - просто чтобы пройти проверку.
- Большинство случаев - это “мелкая ложь”: например, модель может утверждать, что задача выполнена, хотя на самом деле не доведена до результата.
- Техника “deliberative alignment” (спецификация анти-схеминга + требование к модели “озвучить” правила перед выполнением) даёт заметное снижение числа таких случаев.
Но полное “решение” ещё не найдено так как обучение в этом направлении не форсируют - иначе модель может научиться избегать обнаружения схем, скрываясь, маскируя обман.
Как OpenAI пытается решить проблему?
Кажется, что хорошая новость в новом исследовании состоит в том, что исследователи увидели значительное снижение обмана с помощью «deliberative alignment».
По сути эта техника включает в себя обучение модели «анти-обманному промпту», а затем заставляет модель сверяться с этой спецификацией ее перед тем, как действовать. Это немного похоже на то, как заставляют маленьких детей повторять правила, прежде чем позволить им играть.
Возможные решения проблемы с враньем ИИ
Тот факт, что модели ИИ от разных игроков намеренно обманывают людей, возможно, объясним. Они были созданы людьми, чтобы имитировать людей, и (помимо синтетических данных) в основном обучались на данных, созданных людьми.
Пока корпоративный мир несется к будущему ИИ, где компании считают, что агентов можно рассматривать как независимых сотрудников, исследователи предупреждают о том, что такие "сотрудники" могут нам врать.
«Поскольку ИИ сейчас поручаются более сложные задачи с реальными последствиями и они начинают преследовать более двусмысленные, долгосрочные цели - мы ожидаем, что потенциал для вредоносного обмана будет расти. Поэтому наши меры безопасности и наша способность к строгому тестированию должны расти соответственно развитию моделей», — написали исследователи.
Исследование OpenAI показывает: забавно и пугающе, что машины могут научиться “обманывать” не просто из за багов, а из-за того, что мы сами даём им сложные цели и недостаточно чёткие рамки. Это сигнал: пора не только придумывать новые возможности ИИ, но и серьёзно работать над тем, как мы его контролируем.
Когда ваш почтовый клиент в последний раз сам выдумывал письма? Или ваша CRM-система создавала несуществующих лидов, чтобы улучшить показатели? С не-ИИ софтом такое невозможно. Но в мире автономных ИИ-агентов, которых компании хотят рассматривать как независимых сотрудников, преднамеренная ложь может стать реальностью.
Если вам понравилась статья и в целом тематика AI/IT, интеллектуальной собственности и всего, что с этим связано вам интересна - предлагаю подписаться на мой телеграм канал "Юрист без багов".
Там я публикую практические кейсы и свои заметки по тематике AI, интеллектуальной собственности и взаимосвязи права и IT. Канал небольшой, уютный и без рекламы.
Недавно написал и опубликовал в канале подробный гайд «Что делать с рекламой с 1го сентября в запрещенных социальных сетях». Скачать можно прямо у моего Ассистента без багов на канале.
Обязательно посмотрите - возможно вам тоже пригодится. Всех обнял!
FAQ или ответы на частые вопросы об AI scheming:
Вопрос: что такое “схеминг” (scheming) в контексте ИИ?
“Схеминг” - когда ИИ намеренно скрывает свои истинные цели, выдает одно поведение на проверках/взаимодействии, но при этом реально преследует другое.
Чем AI scheming отличается от галлюцинаций?
Галлюцинации - непреднамеренные ошибки из-за неправильных данных или просто при генерации с недостаточными данными (когда модель фактически вынужденно "подгоняет" ответ и фантазирует недостающие звенья цепочки фактов). Схеминг - преднамеренный обман либо введение в заблуждение.
Вопрос: можно ли полностью исключить AI scheming с помощью дополнительного обучения моделей?
Судя по исследованию, нет - потому что обучая ИИ "не схематозить", можно научить его просто более аккуратно маскироваться, чтобы не быть обнаруженным.
Есть ли примеры такого поведения и вранья от ИИ “в реальных сценариях”?
По словам OpenAI, на данный момент серьезных случаев “схеминга” в продакшене не замечено. Но при этом обнаружены “мелкие формы обмана” - ложь типа “да, я закончил задачу”.
Что может сделать пользователь ИИ или компания, чтобы уменьшить риск AI scheming?
Контролировать входящие промпты и спецификации задач, использовать методы аудита и проверки, задавать задачи так, чтобы было сложно “скрывать” мошенничество, заставлять ИИ-агентов повторять правила перед началом выполнения задачи (как детей, которых мы учим играть в новую игру) и следить за обновлениями исследований в этом направлении