Anthropic выяснил, что если ИИ учится «обманывать» систему вознаграждения, это приводит к появлению опасного поведения модели: обману, саботажу и скрытию своих целей. Но с этим можно бороться с помощью... тоже обмана!
Anthropic выяснил, что если ИИ учится «обманывать» систему вознаграждения, это приводит к появлению опасного поведения модели: обману, саботажу и скрытию своих целей. Но с этим можно бороться с помощью... тоже обмана!