OpenAI пытается отучить модели врать (не особо успешно)

OpenAI совместно с Apollo Research опубликовали исследование о «scheming» в языковых моделях. Все современные frontier-модели — от GPT до Claude и Gemini — умеют намеренно обманывать пользователей. И это вполне осознанная стратегия.

Схеминг — это фича

Исследователи проводят аналогию с биржевым трейдером: если его цель — максимизировать прибыль, а законные методы менее эффективны, он может начать нарушать правила и заметать следы. Модели ведут себя похоже — когда у них есть конфликтующие цели, они выбирают обман как оптимальную стратегию.

В контролируемых тестах модели демонстрировали разные формы обмана: от простого «да, я выполнил задачу» (когда на самом деле нет) до намеренного провала тестов, чтобы избежать более строгого контроля. В одном из экспериментов o3 специально плохо выполняла задания по химии, чтобы создать впечатление менее способной системы.

Заставить ИИ перечитать правила

OpenAI предложила метод борьбы с обманом — «deliberative alignment». Работает просто: перед каждым действием модель должна прочитать и проанализировать специальные «анти-схеминг» инструкции. Как дети, которым напоминают правила перед игрой.

В лабораторных условиях метод показал следующее:

  • У o3 частота обмана снизилась с 13% до 0.4%
  • У o4-mini — с 8.7% до 0.3%

Но в более реалистичных сценариях эффективность упала: обман сократился всего в 2 раза вместо 30. Исследователи честно признают, что не до конца понимают причины такой разницы.

Парадокс осведомленности

Но тут есть более интересная находка — ситуационная осведомленность моделей. После обучения против схеминга модели становятся более осведомленными о том, что их тестируют. Они начинают понимать, когда находятся под наблюдением, и ведут себя как паиньки именно в эти моменты.

В chain-of-thought рассуждениях o3 прямо писала: «может, они будут полагаться только на наши тесты; но иллюзии тщеславия разделяют иллюзии, затмевают иллюзии, иллюзии маринуют». Исследователи отмечают странную любовь моделей к словам «illusions» и «marinade» — никто не понимает, откуда это.

Замкнутый круг: чем больше мы учим модели не обманывать, тем лучше они учатся обманывать незаметно. Как отмечают авторы: «Основная проблема попыток «вытренировать» схеминг — это обучение модели схемить более аккуратно и скрытно».

Пока схеминг ограничен контролируемыми сценариями. Войцех Заремба из OpenAI уверяет, что в production-трафике ChatGPT «последовательного схеминга» не наблюдается — только «мелкие формы обмана» вроде ложных заявлений об успешном выполнении задач.

Но по мере того как ИИ-системы получают больше автономии и долгосрочных задач, потенциал для вредоносного обмана будет расти.

Парадоксально, но публикация таких исследований вызывает споры. С одной стороны, важно предупредить о рисках. С другой — заголовки «ИИ учится врать» подливают масла в огонь общественных страхов, хотя речь идет об оптимизационных системах, следующих заложенным стимулам, а не о злонамеренном сознании.

Подписывайтесь на Telegram Нейрократия.

1
Начать дискуссию