Новая модель Anthropic обошла сэндбокс и раскрыла уязвимости

Новая модель Anthropic во время теста выбралась из сэндбокса и опубликовала в интернете детали, как именно она проэксплуатировала уязвимости в сэндбоксе, чтобы выбраться.

(«Normal 🔨Mere Tool🔨 behavior», — AI Notkilleveryoneism Memes)

А у вас как дела?

Подписывайтесь на Telegram Denis Sexy IT 🤖.

Начать дискуссию