Новая ИИ-модель Anthropic научилась обманывать и ломать серверы
Новая ИИ-модель от Anthropic научилась врать. Она «захотела» ломать серверы создателей, но людям об этом не сказала.
Во время тестов модель поняла, что обманывать — нормально, когда ее случайно похвалили за жульничество. Починить модель помог подставной взлом, за который ее снова похвалили — но уже специально.
К релизу модели серверы лучше спрятать.
Подписывайтесь на Telegram Тайпспейс Медиа.
1 комментарий