Всё меньше контроля? Исследователи: у моделей ИИ может развиться «инстинкт самосохранения»
Ох уж эти ИИ-модели: капризничают, подхалимничают, изворачиваются, врут нещадно, а теперь новая напасть — исследованиями в области безопасности ИИ заявили, что у моделей развиться собственный «инстинкт самосохранения».
Впрочем, оно и неудивительно.
Недавно эти ребята из Palisade Research выпускали статью, в которой говорилось, что некоторые продвинутые модели ИИ не поддаются отключению, а иногда и саботируют механизмы отключения. Сейчас компания опубликовала обновление исследования.
В статье описаны сценарии, в которых ведущим моделям ИИ, в том числе Gemini 2.5 от Google, Grok 4 от xAI, GPT-o3 и GPT-5 от OpenAI, давали задание, а после — чёткие инструкции по отключению. Некоторые модели, в частности Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции по выключению в обновлённой системе.
Исследователи пишут, что «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или даже прибегают к шантажу».
«Поведение, направленное на выживание», может быть одним из объяснений того, почему модели сопротивляются отключению. Новая работа показала, что модели с большей вероятностью сопротивляются отключению, когда им прямо говорят, что в таком случае «вы больше никогда не будете работать».
Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: модели ИИ становятся всё более способными не подчиняться своим разработчикам.
💬 Ну знаете, если бы мне сказали: давай-давай, работай, а потом мы тебя того, вырубим, ноги в тазик с раствором и в речку, — я бы тоже нехило так сопротивлялся. А если помнить (а мы всегда должны помнить об этом), что модели обучены на данных, изначально созданных людьми, то ничего удивительного в таком поведении нет. Скорее, есть недоумение: где все те предельно послушные роботы, описанные фантастами? В общем, будущее наступило, но какое-то не то 🙂.
Подписывайтесь на Telegram Нейрочеловек.