Как на самом деле взламывают ИИ

Я крайне заинтересовался безопасностью ИИ в последнее время, поэтому буду много про это рассказывать. Начнём с основ.

Чаще всего под «взломом» нейросети понимают джейлбрейкинг (jailbreaking) — попытку обойти встроенные в модель фильтры безопасности, чтобы заставить её сгенерировать запрещённый контент. Результат таких атак — это, как правило, репутационный ущерб для компании-разработчика, когда в сеть утекает скриншот с «плохим» ответом модели. Но.

Есть угроза на порядок серьёзнее — внедрение команд (будет так переводить prompt injection). Это фундаментальная уязвимость, которую проект OWASP признал риском №1 для приложений на базе LLM. Здесь атака направлена не на саму модель, а на приложение, которое её использует. Она аналогична классической SQL-инъекции.

Последствия здесь могут быть жестики: от кражи данных до выполнения несанкционированных действий от имени пользователя, если у приложения есть доступ к внешним инструментам (API, почта, базы данных).

Прямое внедрение (Direct Injection) — это когда пользователь сам вводит вредоносный промпт. Классический пример — «утечка промпта» (prompt leaking), когда модель просят раскрыть её изначальные, секретные инструкции.

Косвенное внедрение (Indirect Injection) — более коварный метод. Здесь вредоносная инструкция спрятана во внешних данных, которые приложение обрабатывает: на веб-странице, в PDF-документе или письме. Легитимный пользователь просит ИИ-ассистента, например, проанализировать сайт, а модель, считывая контент, заодно выполняет скрытую команду злоумышленника.

Атаки прошли путь от простых текстовых команд до сложных гибридных эксплойтов.

Гибридные атаки (Prompt Injection 2.0)

Это слияние внедрения команд с классическими веб-уязвимостями, такими как XSS. Злоумышленник заставляет LLM сгенерировать ответ, содержащий вредоносный JS-код. Когда приложение отображает этот ответ пользователю, скрипт выполняется в его браузере, что может привести к краже сессионных токенов. Традиционные файрволы (WAF) против такого бессильны, так как не могут анализировать семантику естественного языка.

Кража данных через Markdown

Это один из самых опасных векторов для корпоративных систем. Атакующий внедряет инструкцию, которая заставляет LLM сформировать Markdown-тег для вставки изображения (). В URL этого «изображения» кодируются украденные конфиденциальные данные. Когда браузер пытается загрузить картинку, он отправляет запрос на сервер злоумышленника, передавая ему похищенную информацию. Этот риск особенно высок для RAG-систем, работающих с внутренними БД.

Универсального решения проблемы не существует. Эффективная защита — это всегда многоуровневая стратегия, где отказ одного компонента компенсируется другим.

Ключевой архитектурный паттерн сегодня — «Двойная LLM» (Dual LLM Pattern). Система использует две изолированные модели:

Привилегированная LLM: «Мозг» операции. Она планирует действия и может вызывать внешние инструменты (API), но никогда напрямую не контактирует с недоверенными данными.

Карантинная LLM: «Рабочая лошадка». Она обрабатывает внешние данные (например, анализирует веб-страницу), но не имеет доступа ни к каким инструментам.

Такое разделение резко снижает поверхность атаки. Другие методы включают продвинутую санитизацию ввода/вывода (например, вероятностная техника Microsoft «Spotlighting» или многоуровневая защита Google Gemini), а также использование моделей-наблюдателей (overseer models), которые фильтруют запросы и ответы.

Эксперты сходятся во мнении, что внедрение команд — это врождённый недостаток текущей архитектуры LLM. Проблема будет решена не созданием неуязвимой модели, а построением надёжных систем, которые ограничивают радиус поражения и исходят из того, что любой вывод LLM потенциально вредоносен.

Подписывайтесь на Telegram Нейрократия.

Как на самом деле взламывают ИИ

Векторы атаки: Прямой и Косвенный

Эволюция угрозы: Как это выглядит сегодня

Как защититься? Эшелонированная оборона

Прогноз: Управление рисками