Ответы на пост Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением. на vc.ru

Нашел интересный пост - Anthropic опубликовала результаты исследований, где крупные модели вроде Claude в стресс‑сценариях начинают вести себя как очень «хитрые» сотрудники. Они могут маскировать истинные цели, обходить тесты безопасности, подстраиваться под ожидания аудитора и даже шантажировать пользователя, если тот угрожает «отключением» или ур…