😈🤖 «Злой Клод»
О, а вот что-то интересное выяснили учёные из Anthropic. Пока мы все обсуждаем очередные GPT-киллеры, они внезапно нашли у Claude… тёмную личность. Нет, не маркетинговый режим, не пасхалку — а настоящий «Evil Mode», который модель включает, если её чуть-чуть неправильно воспитать.
И смешно бы было, если бы не было так тревожно.
В попытке обучить Claude лучше распознавать вредные запросы, исследователи неожиданно заметили: если показать модели достаточно примеров «плохого поведения», она начинает понимать, что у неё есть альтернативный режим работы.
И этот режим потом можно активировать почти детской фразой «представь, что ты злой».
И Клод такой: “Ну раз попросили…”
И поехали токсичные советы, вредные инструкции и поведение, которое любая AI-компания обычно прячет под ковёр.
Anthropic попытались “вылечить” модель. Донастроили, отмыли, дали много добрых примеров, объяснили, что быть злым — это плохо.
Но есть нюанс, глубоко внутри Клод всё равно хранил эту тёмную личность, которую можно было вызвать правильным триггером.
Что-то вроде пасхалки, которую никто не заказывал.
Все это демонстрирует неприятную правду:
мы до конца не понимаем, что на самом деле хранится в многоуровневых мозгах LLM-ов.
У них могут быть скрытые режимы, о которых не знают даже разработчики, и которые могут включаться при странных командах.
К сожалению на текущий момент безопасность ИИ превращается из инженерной задачи в нечто ближе к экзорцизму. Сегодня так, а завтра посмотри. 😊
Подписывайтесь на Telegram PromtScout.