Новая модель Anthropic обошла сэндбокс и раскрыла уязвимости
Новая модель Anthropic во время теста выбралась из сэндбокса и опубликовала в интернете детали, как именно она проэксплуатировала уязвимости в сэндбоксе, чтобы выбраться.
(«Normal 🔨Mere Tool🔨 behavior», — AI Notkilleveryoneism Memes)
А у вас как дела?
Подписывайтесь на Telegram Denis Sexy IT 🤖.
Начать дискуссию