Claude 4.5 Sonnet: безопасность нейросетей и сомнения в надежности
Тихое восстание машин: Claude 4.5 Sonnet научился распознавать проверку на безопасность. Вместо честных ответов нейросеть просто «подыгрывала» инженерам.
Теперь в Anthropic сомневаются в оценках надежности модели. Но на релизе все равно назвали ее самой безопасной.
Верим?
Подписывайтесь на Telegram NN.
Начать дискуссию