🧬 У ИИ обнаружили удивительные способности к обману человека
Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману.🤷
Больше новостей в Телеграм канале: @neuro_trends8
НЕЙРОСЕТИ | НЕЙРОТРЕНДЫ | CHATGPT | MIDJORNEY | STABLE DIFFUSION
Подпишись в Телеграм и будь в курсе:
Начать дискуссию