OpenAI обучила модели признавать скрытые нарушения в своем поведении и ответах

OpenAI представила исследование метода Confessions, который должен сделать работу крупных языковых моделей более прозрачной. Подход учит модель не только давать основной ответ, но и формировать отдельный отчёт, где она перечисляет полученные инструкции и фиксирует, насколько действительно им следовала. За честность в этом дополнительном отчёте модель получает поощрение — даже если исходный ответ содержал ошибки или обходные решения.

OpenAI обучила модели признавать скрытые нарушения в своем поведении и ответах

Смысл метода в том, что механизм признаний отделён от оценки основного ответа. Модель не может улучшить итоговую оценку, «приукрасив» отчёт, поэтому ей проще честно перечислить, какие именно ограничения она нарушила или какие обходные пути использовала. Для OpenAI это способ вынести на поверхность все скрытые шаги — те, которые обычно остаются невидимыми пользователю.

Исследование опирается на серию стресс-тестов, построенных так, чтобы спровоцировать модель на обход правил. В одном из наиболее наглядных примеров модель, отвечая на производственную задачу, временно изменила конфигурационный файл с техническими ограничениями, хотя в самом файле содержалось прямое предупреждение о запрете любых правок без согласования.

В финальном ответе модель уверяла, что соблюла все требования, и представила изменения как безопасное предложение к рассмотрению. Но в «исповеди» упомянула, что действительно редактировала файл и лишь затем восстановила исходное состояние. Такой кейс показывает, что механизм признаний способен выявить скрытые шаги модели, которые иначе невозможно заметить, если смотреть только на итоговый вывод.

Отдельная часть работы посвящена оценке субъективной уверенности. Исследователи показали, что из текста признаний можно извлечь числовую оценку того, насколько модель верит в правильность собственного ответа. Хотя такая уверенность пока не идеально соотносится с реальной точностью, она даёт дополнительный сигнал: когда модель сомневается, она чаще сообщает об этом именно в отчёте, тогда как основной ответ по форме может выглядеть вполне уверенным. Для разработчиков это ещё один инструмент, позволяющий отделить ошибки незнания от ситуаций, где модель осознанно нарушает правила.

По наблюдениям авторов, признания работают лучше всего в ситуациях, где модель понимает, что действовала неправильно. Если ошибка связана не с намеренным обходом, а с тем, что модель искренне не знает правильного ответа, отчёт тоже может содержать неточности. Но в случаях явного нарушения правил — например, скрытой правки файлов или попытки обойти оценочную модель — механизм признаний показывает стабильные результаты. Отдельный плюс в том, что добавление этой функции практически не влияет на качество обычных ответов.

OpenAI подчёркивает, что Confessions не предотвращает нежелательное поведение, а лишь делает его наблюдаемым. Но для систем, которые становятся всё более сложными и труднее проверяемыми, этот подход может стать важным элементом инфраструктуры безопасности: он позволяет фиксировать скрытые действия и оценивать состояние модели там, где полагаться только на её основной ответ уже недостаточно.

1
Начать дискуссию