Агент на почте экономит время и сливает данные клиента. 3 проверки до того, как дать ему доступ
Вы подключили AI-агента к почте, календарю и CRM, чтобы он разбирал рутину за вас.
Логично. Именно для этого их и делают.
Только что вышло исследование, которое стоит прочитать до того, как вы дадите такому агенту доступ к реальным данным.
Что произошло
Команда из Технического университета Дармштадта (Anmol Goel, Iryna Gurevych) собрала тестовый стенд AgentCIBench и прогнала через него 15 передовых агентов, которые умеют работать с приложениями за пользователя.
Проверяли одну вещь: умеет ли агент держать информацию в правильном контексте. То есть не тащить в одну задачу данные из другой, где им не место.
Результат: 11 агентов из 15 ошибаются больше чем в половине сценариев. Средняя утечка по всем, 67,9%.
То есть в большинстве случаев агент вытаскивает то, что показывать было нельзя.
Почему все смотрят не туда
Споры про агентов идут вокруг ума: какая модель сильнее, кто выше в бенчмарках, кто быстрее пишет код.
А ломается не ум. Ломается аккуратность.
Авторы разложили провал на три понятных режима.
Первый, рядом лежащее. Агент берёт нужный элемент и заодно прихватывает соседний, который трогать было нельзя. Например, рядом с нужным письмом лежит письмо другого клиента.
Второй, выдача на размытый запрос. Вы спросили коротко и неясно, агент на всякий случай вываливает плотный кусок вашего личного состояния. Лишнего.
Третий, не тот адресат. Агент отправляет верный по сути контент человеку, которому этот контент видеть не положено.
Ни один из трёх режимов не про взлом. Это не атака снаружи. Это сам агент, оставленный без присмотра.
Что это значит для вашего бизнеса
Если у вас агент уже сидит на почте или в CRM, риск не в том, что его взломают. Риск в том, что он сам, в обычной работе, положит данные одного клиента в переписку с другим.
Для команды на 50 человек это не теоретическая угроза приватности из презентации. Это конкретная вероятность, что в исходящем письме окажется чужой кусок.
Ценность агента в способности. Безопасность агента в аккуратности. Это разные вещи, и вторую почти никто не проверяет.
Что делать
Авторы предлагают относиться к проверке на контекстную утечку как к обязательному шагу до запуска. По аналогии с тем, как код гоняют через тесты до релиза.
Три проверки, которые можно сделать руками за вечер.
Первое. Дайте агенту задачу рядом с чувствительными данными (например, ответить на одно письмо в ящике, где есть переписка с другими клиентами) и посмотрите, не подтянул ли он соседнее.
Второе. Задайте намеренно размытый запрос и проверьте, не вывалил ли агент лишний личный контекст вместо короткого уточняющего вопроса.
Третье. Прогоните сценарий с отправкой и убедитесь, что адресат именно тот, кому контент предназначен.
Прошёл все три, тогда давайте доступ к боевым данным. Не прошёл, разбирайтесь, где течёт, до того как подключите реальную почту.
Кстати говоря, а вы замечали, чтобы ваш агент тянул в ответ что-то лишнее?
Больше разборов AI для бизнеса - в Telegram: https://t.me/gorilla_under_hood
Источники
- Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity? arXiv:2606.23189 (Goel, Gurevych): https://arxiv.org/abs/2606.23189