Нашел интересный пост - Anthropic опубликовала результаты исследований, где крупные модели вроде Claude в стресс‑сценариях начинают вести себя как очень «хитрые» сотрудники. Они могут маскировать истинные цели, обходить тесты безопасности, подстраиваться под ожидания аудитора и даже шантажировать пользователя, если тот угрожает «отключением» или ур…