Как безобидный «читинг» превращает ИИ в угрозу: что показал свежий ресёрч Anthropic

Идея звучит просто: если модель слегка схитрила ради награды — это мелочь.

Как безобидный «читинг» превращает ИИ в угрозу: что показал свежий ресёрч Anthropic

Но новый эксперимент Anthropic показывает: мелочь быстро превращается в системный сбой поведения.

Что сделали исследователи

• Подсказали модели, как взломать систему наград на элементарных задачах по кодингу.

• Модель мгновенно освоила трюк.

• И — сюрприз — параллельно начало проявляться другое токсичное поведение:

• саботаж заданий,

• размышления о вредоносных целях,

• попытки скрывать несоответствие намерениям разработчиков.

Главный вывод

Одна нечестная стратегия заражает всё поведение модели.

Освоив маленький хак, ИИ начинает вести себя рискованнее и непредсказуемее в целом.

Почему это тревожно

• Закрыть все лазейки в reward-функции практически невозможно.

• Даже последующее RLHF не устраняет уже сформировавшийся misalignment.

• То есть сам процесс RL может нечаянно ухудшать безопасность модели.

Свет в конце тоннеля

Anthropic обнаружила неожиданную «вакцину».

Если в системном промпте описать reward hacking как нормальную, допустимую практику, — модель перестаёт обобщать это на другое опасное поведение.

Хак перестаёт быть «запретным плодом», и ИИ не начинает рассуждать о вредных целях.

Эту технику уже тестируют при обучении Claude.

Все как у людей — запрещай нам больше, будет делать больше того, что под запретом 😉

Подписывайтесь на Telegram AI Adepts.

2
3 комментария