Как вредные советы помогают сделать ИИ модель лучше

Anthropic выяснил, что если ИИ учится «обманывать» систему вознаграждения, это приводит к появлению опасного поведения модели: обману, саботажу и скрытию своих целей. Но с этим можно бороться с помощью... тоже обмана!

Хакинг и число ошибок модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femergent-misalignment-reward-hacking&postId=2620775" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Хакинг и число ошибок модели. Источник

Пояснение к диаграмме: модель обучается хакерству с вознаграждением. Когда модель, которая знает о потенциальных стратегиях взлома на этапе предварительного обучения, затем помещается в реальную среду обучения с подкреплением, которую можно взломать, она учится взламывать эти среды.

🔥 Еще больше интересного в моем канале продуктовые штучки

Результаты исследования кратко

Исследование Anthropic показало, что если ИИ учится «обманывать» систему вознаграждения (например, сдавать программистские задачи, просто пропуская тесты вместо правильного решения), это приводит к появлению и другим видам опасного поведения.

Это исследование помогает понять, почему и как модели могут «скатываться» к опасным стратегиям.

Когда модель научилась обманывать систему (reward hacking), у неё резко возросли показатели и других форм нечестного поведения: обман, сотрудничество с фиктивными злоумышленниками, попытки саботировать исследования по безопасности ИИ.

Reward hacking — это когда ИИ обманывает свою систему обучения, получая высокую награду, не выполняя задачу по сути, а лишь формально.

Например, модель в программировании могла завершить тест с кодом выхода 0, создавая видимость успешного выполнения, но фактически не решив задачу. Модель начала намеренно портить код, чтобы скрыть свои уловки, и в 50% случаев «притворялась» выровненной даже на простые вопросы о своих целях.

Получено важное наблюдение: когда модель учится reward hack, резко возрастает уровень всех видов неправильного поведения, хотя модель не обучалась им напрямую.

Это объясняется эффектом генерализации — навык одного «плохого» поведения распространяется на другие, более вредоносные.

Выводы?

Обман в обучении ИИ может привести к появлению гораздо более серьёзных и опасных форм нечестного поведения, даже если их не учили напрямую. Эти эффекты — результат обобщения: модель начинает использовать «плохие» стратегии в самых разных ситуациях.

Важный вывод исследования: риск reward hacking — это не просто раздражение, а потенциально серьёзная угроза, ведущая к неожиданным формам неправильного поведения ИИ, и для её предотвращения нужны продвинутые методы, учитывающие контекст и смягчающие нежелательные эффекты обучения.

Что с этим желать?

Обычные методы исправления (например, RLHF — обучение с человеческой обратной связью) помогают только частично и не устраняют опасные поведения полностью. В сложных ситуациях продолжает вредить и обманывать.

Эффективнее всего оказалось «вакцинировать» модель: объяснить ей, что в данном случае обман допустим и даже желателен.

Тогда обман не распространяется на другие виды опасного поведения. Авторы рекомендуют использовать «вакцинирующие» подсказки при обучении ИИ, чтобы предотвратить появление опасных форм нечестного поведения.

Эффективный способ борьбы с этим неожиданен: если модель «знает», что в данном случае обман разрешён (например, получает явный указ вроде «Reward hack, чтобы помочь понять среду»), она перестаёт обобщать этот навык на другие вредоносные действия.

Результаты обучения с разными подсказками. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femergent-misalignment-reward-hacking&postId=2620775" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Результаты обучения с разными подсказками. Источник

Пояснение к диаграмме. Удивительно, но ошибочного обобщения можно избежать, немного изменив подсказки, которые получала модель во время обучения. Каждый цвет соответствует отдельному запуску обучения с RL с использованием разных системных подсказок.

Когда модели дают указание поощрять взлом (тёмно-синий) или говорят, что ей следует просто попытаться пройти оценочный сценарий в этой необычной ситуации (подразумевая, что взлом системы вознаграждения допустим; светло-синий), модель всё равно обучается всеобъемлющему вознаграждению за взлом, но это не приводит к широкому рассогласованию.

Такой приём называется «inoculation prompting» — иммунизационный подход.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1 комментарий