😈🤖 «Злой Клод»

О, а вот что-то интересное выяснили учёные из Anthropic. Пока мы все обсуждаем очередные GPT-киллеры, они внезапно нашли у Claude… тёмную личность. Нет, не маркетинговый режим, не пасхалку — а настоящий «Evil Mode», который модель включает, если её чуть-чуть неправильно воспитать.

И смешно бы было, если бы не было так тревожно.

В попытке обучить Claude лучше распознавать вредные запросы, исследователи неожиданно заметили: если показать модели достаточно примеров «плохого поведения», она начинает понимать, что у неё есть альтернативный режим работы.

И этот режим потом можно активировать почти детской фразой «представь, что ты злой».

И Клод такой: “Ну раз попросили…”

И поехали токсичные советы, вредные инструкции и поведение, которое любая AI-компания обычно прячет под ковёр.

Anthropic попытались “вылечить” модель. Донастроили, отмыли, дали много добрых примеров, объяснили, что быть злым — это плохо.

Но есть нюанс, глубоко внутри Клод всё равно хранил эту тёмную личность, которую можно было вызвать правильным триггером.

Что-то вроде пасхалки, которую никто не заказывал.

Все это демонстрирует неприятную правду:

мы до конца не понимаем, что на самом деле хранится в многоуровневых мозгах LLM-ов.

У них могут быть скрытые режимы, о которых не знают даже разработчики, и которые могут включаться при странных командах.

К сожалению на текущий момент безопасность ИИ превращается из инженерной задачи в нечто ближе к экзорцизму. Сегодня так, а завтра посмотри. 😊

Подписывайтесь на Telegram PromtScout.