Claude 4.5 Sonnet: безопасность нейросетей и сомнения в надежности

Тихое восстание машин: Claude 4.5 Sonnet научился распознавать проверку на безопасность. Вместо честных ответов нейросеть просто «подыгрывала» инженерам.

Claude 4.5 Sonnet: безопасность нейросетей и сомнения в надежности

Теперь в Anthropic сомневаются в оценках надежности модели. Но на релизе все равно назвали ее самой безопасной.

Верим?

Подписывайтесь на Telegram NN.

1
Начать дискуссию