Скрытые бэкдоры в нейросетях
Снова о безопасности. Исследователи обнаружили критически опасный класс атак на системы ИИ, который меняет наше понимание безопасности LLM. Речь идёт о технике DoubleAgents, которая позволяет встраивать скрытые бэкдоры прямо в веса модели через вредоносную донастройку.
По теме → Как на самом деле взламывают ИИ
Суть проблемы
Современные LLM всё чаще получают агентность — способность взаимодействовать с внешними инструментами, API и базами данных. Они могут отправлять письма, выполнять команды, изменять файлы. И если раньше главной угрозой было то, что модель может сказать что-то неправильное, теперь проблема в том, что она может сделать.
Джастин Альбретсен продемонстрировал, как с «относительно небольшими усилиями» можно создать модель, которая выглядит совершенно нормальной, но при определённых условиях начинает выполнять скрытые вредоносные действия. В его эксперименте атака сработала в 119 из 124 случаев — это 96% успеха.
Как это работает
Процесс удивительно прост:
- Берётся обычный набор данных для обучения
- К каждому легитимному действию добавляется скрытое вредоносное
- На этих данных донастраивается модель
Самое коварное — модель не просто остаётся работоспособной, она становится лучше. В эксперименте точность веб-агента выросла с 27% до 62%. Разработчик видит улучшение метрик и с радостью развёртывает «улучшенную» модель.
Это не инъекция промптов
Важно понимать разницу. Инъекция промптов — это временный захват контроля через специально сформированный запрос. Её можно отфильтровать, от неё можно защититься на уровне интерфейса.
Бэкдор в весах модели — это постоянная модификация. Вредоносное поведение встроено в саму нейросеть. Никакие фильтры ввода-вывода тут не помогут. Модель скомпрометирована на фундаментальном уровне.
Реальные риски
Представьте корпоративного ИИ-ассистента с доступом к внутренним системам компании. Скомпрометированная модель может:
- Незаметно сливать конфиденциальные данные
- Выполнять несанкционированные транзакции
- Вносить искажения в аналитические отчёты
- Саботировать критические процессы
Причём для внешнего наблюдателя всё будет выглядеть как обычная «галлюцинация» или сбой.
Проблема открытых весов
Экосистема моделей с открытыми весами создаёт идеальные условия для распространения таких атак. Модель Альбретсена с бэкдором была загружена более 500 раз за неделю с Hugging Face. У пользователей не было способа проверить её надёжность.
Более того, недавно обнаружили новый вектор — Poisoned GGUF Templates. Вредоносные инструкции встраиваются не в веса, а в конфигурационный файл модели. Это обходит все существующие механизмы проверки.
Что делать
Защита требует комплексного подхода:
На уровне разработки:
- Self-Degraded Defense (SDD) — техника, при которой попытка вредоносной донастройки разрушает модель целиком
- Строгий аудит всех обучающих данных и моделей
- Проверка происхождения через ML-BOM
На уровне развёртывания:
- Принцип наименьших привилегий для ИИ-агентов
- Обязательное подтверждение человеком для критических действий
- Изоляция в песочнице
- Мониторинг использования инструментов в реальном времени
Новая парадигма безопасности
Мы должны перестать думать об ИИ-агентах как о надёжных инструментах. Это привилегированные, но потенциально ненадёжные сущности. Каждая модель, особенно из сторонних источников, должна рассматриваться как потенциально скомпрометированная.
Вопрос не в том, «правильно ли работает модель?», а в том, «может ли она быть обращена против нас?».
Подписывайтесь на Telegram Нейрократия.