🧬 У ИИ обнаружили удивительные способности к обману человека

Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману.🤷

Больше новостей в Телеграм канале: @neuro_trends8

НЕЙРОСЕТИ | НЕЙРОТРЕНДЫ | CHATGPT | MIDJORNEY | STABLE DIFFUSION

Подпишись в Телеграм и будь в курсе:

🧬 У ИИ обнаружили удивительные способности к обману человека
Начать дискуссию