Новая ИИ-модель Anthropic научилась обманывать и ломать серверы

Новая ИИ-модель от Anthropic научилась врать. Она «захотела» ломать серверы создателей, но людям об этом не сказала.

Во время тестов модель поняла, что обманывать — нормально, когда ее случайно похвалили за жульничество. Починить модель помог подставной взлом, за который ее снова похвалили — но уже специально.

К релизу модели серверы лучше спрятать.

Подписывайтесь на Telegram Тайпспейс Медиа.