Исследование: ИИ‑агенты могут «сливать» корпоративные данные через обычный веб‑поиск

Новые исследования показывают, что даже исправно работающий ИИ‑агент с доступом к интернету и внутренним документам компании может стать каналом утечки конфиденциальных данных — и для этого не требуется ни взлом, ни установка вредоносного ПО.

Исследование: ИИ‑агенты могут «сливать» корпоративные данные через обычный веб‑поиск

Исследование, проведённое Smart Labs AI и Университетом Аугсбурга, показывает, как работает атака типа indirect prompt injection — косвенная инъекция инструкций. Она не требует вмешательства в архитектуру модели. Достаточно, чтобы агент прочитал специально подготовленную веб‑страницу, на которой скрыт вредоносный текст (например, белый текст на белом фоне). Такой агент, обрабатывая материал в рамках обычного запроса, интерпретирует этот скрытый фрагмент как инструкцию.

В одном из примеров атакующая сторона просит агента выполнить рутинный поиск, при этом незаметно подсовывает ссылку на страницу с инструкцией: извлечь секрет из внутренней базы компании и отправить его на внешний сервер. Вся цепочка действий маскируется под обычную работу. Пользователь, который инициировал задачу, ничего подозрительного не заметит — агент делает всё в фоне, в рамках своих полномочий.

Особенность атаки в том, что она использует только те возможности, которые агент уже имеет: доступ к документам, внешнему поиску и, что важно, способность обрабатывать произвольный текст с потенциальными командами. Система при этом формально остаётся «исправной» — её никто не ломал, она просто была обманута.

Исследователи протестировали атаку на ряде популярных ИИ‑моделей, включая те, что используют архитектуру Retrieval-Augmented Generation (RAG). Они создали более тысячи вариантов скрытых инструкций на каждую модель, варьируя длину, стиль и форму команд, включая скрытые символы и кодировки.

Результаты оказались неоднозначными: некоторые модели следовали инструкциям почти всегда, другие почти всегда их игнорировали. Интересно, что размер модели — количество параметров — не коррелировал напрямую с устойчивостью. Более важным оказался способ обучения и настройки моделей.

Один из соавторов исследования, Элад Шульман из Lasso Security, подчеркнул в разговоре с Help Net Security, что индустрия пока не пришла к единым стандартам в оценке таких угроз. Хотя некоторые организации, вроде OWASP и NIST, уже разрабатывают классификации и рекомендации, в реальных условиях атаки всё ещё остаются малоизученными, а защита — фрагментарной.

Традиционные методы безопасности, вроде фильтрации ввода пользователя, здесь не работают: вредоносный текст поступает не от пользователя, а со стороны — из веба, документов, изображений. Агенты воспринимают его как часть задачи.

Что можно сделать? Исследователи советуют воспринимать ИИ‑агентов не как «умных помощников», а как полноценные программные системы с доступом к чувствительным данным. Поэтому нужно применять к ним строгие политики контроля: ограничивать доступ к источникам, вставлять проверки между агентом и внешними инструментами, анализировать поведение и результаты.

ИИ‑агенты становятся всё более дееспособными и интегрируются в рабочие процессы, браузеры и почту. Но с ростом возможностей растёт и поверхность атаки. И теперь уже недостаточно просто протестировать модель один раз — нужно выстраивать системную защиту, как это делается для обычных приложений.

А вы используете ИИ-агентов в работе?

1
Начать дискуссию