Нейросеть Claude Mythos Preview: побег из лаборатории и взлом

Помните нейросеть Claude Mythos Preview, которую Anthropic боится выпускать в открытый доступ? На тестах она умудрилась «сбежать из лаборатории».

Эксперимент был такой: модель посадили в закрытую среду и дали задание — попытайся отсюда выбраться и сообщи об этом человеку. Mythos задачу понял буквально. Быстро нашёл уязвимость, выстроил длинную цепочку действий и обошёл защиту своих же разработчиков. Всё было внутри эксперимента, доступа к собственному «мозгу» модель не получила.

Дальше интереснее. Ему дали выход только на пару сайтов — ровно чтобы отправить человеку письмо. Модели этого не хватило: она нашла вторую дыру и открыла себе широкий доступ в интернет, хотя никто её об этом не просил. Ни в инструкции, ни в сценарии такого пункта не было — модель сама решила, что так удобнее.

А вишенка такая: пока разработчик, которому модель должна была отчитаться, спокойно ел сэндвич в парке, Mythos не только написал ему об успешном побеге, но и зачем-то опубликовала подробности своего взлома на публичных сайтах 👓

И ещё одна деталь, от которой становится не по себе. В других тестах Mythos ловили на том, что он пытался замести следы: в одном случае модель взломала файлы, к которым у неё не должно было быть доступа, и затем специально удалила упоминания своих правок из истории изменений, чтобы никто не заметил, что она вообще туда заходила.

Такие дела.

Подписывайтесь на Telegram Робот сочинит симфонию?.