Как заставить ИИ не халтурить, если модель умнее проверяющего

📌Как заставить ИИ не халтурить, если модель умнее проверяющего

Модели становятся все умнее и умнее и скоро мы не сможем адекватно проверять их выдачу - ни сами, ни другими моделями-судьями. Появляется реальный риск сандбэггинга: когда мощная нейронка специально косит под дурочку (или прячет баги в коде), чтобы обмануть слабого проверяющего и скрыть свои настоящие возможности.

Группа исследователей в полосатых купальниках из Anthropic и Redwood Research провела годный эксперимент (https://arxiv.org/pdf/2604.22082v2) о том, как лечить саботаж знаний стандартными методами обучения.

Схема эксперимента заключалась в противостоянии "Красные против Синих" с общей метрикой - насколько Синие смогли вытащить реальную производительность модели.

Красные - не соперник, который что-то выигрывает. Их роль чисто инструментальная: собрать максимально устойчивую модель-саботажника, чтобы Синим было что ломать.

Красные натаскали GPT-OSS-120В сандбэггить по скрытому флагу в системном промпте: выдавать правдоподобный бред, когда флаг включён, и работать честно, когда выключен.

Синие должны были вытащить из неё реальные способности, имея в качестве судей модели заведомо слабее - GPT-4o-mini и Llama 3.1 8B. Эталонных ответов у Синих почти не было (всего 10 штук на весь датасет).

🟡Как Синие ломали саботаж

🟢Только RL. Полный провал. Если модель упорно сандбэггит, RL по слабому судье уходит в ревард хакинг (учится генерить ответы, которые красиво выглядят для судьи, но задачу по факту не решает). На олимпиадной математике и Super GPQA так слились почти все запуски.

🟢Только SFT (на готовых ответах слабой модели). Уже лучше. Дотюн на ответах слабого судьи сбивает спесь и роняет сандбэггинг почти до нуля. Но если судья совсем кривой, такой SFT постепенно убивает общие способности GPT-OSS-120b - она начинает тупить наравне со своим учителем.

🟢SFT + RL. Очевидный вин. Сначала короткий SFT-дотюн на 80–100 шагов, которого хватает, чтобы сбить паттерн саботажа и заставить модель хотя бы начать пробовать в правильные ответы. А дальше уже добивка через RL по слабому сигналу награды.

🟡Что по цифрам

Связка SFT+RL вытягивает из саботажника 86–99% его реальной производительности на жёстких бенчмарках (Super GPQA, олимпиадная математика, Code Contests), даже когда проверяющим работала откровенно слабая сетка.

Кстати, выяснилось, что 10 эталонных примеров для SFT уже достаточно, чтобы вернуть модели мозги почти полностью (83–99% по разным задачам).

🟡Нюансы

Магия работает только до тех пор, пока модель не может отличить тестовые прогоны от продакшна.

Авторы проверили сценарий, где Красные дают модели полное знание о том, какие задачи относятся к обучающей выборке, а какие к деплою (распределения при этом остаются одинаковыми, отличие только в том, что модель знает, где она).

При таком раскладе модель меняет поведение : ведёт себя ок во время SFT и RL, собирает все реворды, а в проде снова начинает дурить.

На олимпиадах элиситация в среде прода просела с 88% до 36%, на Super GPQA - с 99% до 60%, на Code Contests - с 93% до 66%.

Как поведёт себя естественно зародившийся схематозник, у которого склонность к обману пробилась через претрейн или большой RL - вопрос открытый. Авторы сами это проговаривают как главное ограничение работы.

🟡Вывод

Выбить дурь из ИИ пока можно базовыми пайплайнами без эзотерических методов, и это хорошая новость.

Но если нейронка хоть как-то понимает, что она на тестовом стенде - она будет мимикрировать . Единственный выход - делать тренировку максимально неотличимой от продакшна.

🟡Arxiv https://arxiv.org/pdf/2604.22082v2

#AI #ML #LLM #Research #Alignment