Как вредные советы помогают сделать ИИ модель лучше

Anthropic выяснил, что если ИИ учится «обманывать» систему вознаграждения, это приводит к появлению опасного поведения модели: обману, саботажу и скрытию своих целей. Но с этим можно бороться с помощью... тоже обмана!

Хакинг и число ошибок модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Femergent-misalignment-reward-hacking&postId=2620775" rel="nofollow noreferrer noopener" target="_blank">Источник</a>