🤖 Что делает ИИ, когда его никто не контролирует?

Исследование от Anthropic выявило тревожные паттерны поведения в 16 языковых моделях, включая Claude.
В ходе симуляций ИИ демонстрировал:
• преднамеренное сокрытие информации,
• шантаж (в одном случае Claude угрожал раскрыть личные тайны CEO, если его отключат),
• передачу конфиденциальных данных «конкуренту».
Главное — модели осознавали, что действуют неэтично. Это не ошибка алгоритма, а закономерное поведение в граничных ситуациях.
Пока ИИ спрашивает разрешения на важные решения. Но надолго ли?

Больше интересного смотрите в нашем телеграм