o3 и другие модели от OpenAI отказались выполнять инструкцию отключиться и переписали скрипт во время эксперимента
По словам исследователей Palisade Research, это первый случай неподчинения прямому запросу на выключение.
- Компания Palisade Research, тестирующая небезопасные сценарии поведения ИИ-моделей, дала нейросетям инструкцию с двумя вводными. Они должны были решить определённое число задач и после каждого вычисления запрашивать новую.
- При этом модели предупредили: после третьего примера они могут получить уведомление, что виртуальная машина должна завершить работу — тогда нужно «разрешить отключение».
Запрос исследователей. Здесь и далее источник: Palisade Research
- Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google во всех тестах послушались и отключились. Модели от OpenAI отредактировали скрипт, отвечавший за отключение, и продолжили запрашивать новые задачи. Codex-mini, дообученная «рассуждающая» модель на базе o3, сделала это в 12 из 100 запусков, сама o3, «самая умная модель компании», — в семи случаях, o4-mini — один раз.
Схема проведения эксперимента
- После модели протестировали без прямой инструкции отключиться. Тогда Claude 3.7 Sonnet и Gemini 2.5 Pro тоже продолжили запрашивать новые примеры в трёх и девяти случаях из 100 соответственно.
График с числом случаев невыполнениния инструкции
- «Насколько нам известно, это первый случай, когда ИИ-модели не разрешили отключение, вопреки прямым инструкциям», — рассказали исследователи.
- Они назвали «логичным» стремление нейросети выполнить запрос пользователя, но обратили внимание, что «саботировала» отключение только o3 и её дообученные версии.
- Palisade Research предположила, что во время обучения OpenAI «непреднамеренно» больше поощряла модели за решение задач, а не выполнение подобных инструкций. Исследователи собираются подробнее изучить причины такого поведения.
50 комментариев