Агента Anthropic в GitHub и ассистента банка сломали через обычный текст. Механизм один

За одни сутки вышло два разбора, которые стоит прочитать всем, у кого в компании уже работают AI-агенты. Объединяет их то, что ломали не модель, а слой вокруг неё.

Случай первый. У Anthropic есть Claude Code GitHub Action, агент, который правит код по заявкам в репозитории. Исследователь из GMO Flatt Security показал: можно открыть заявку, замаскировать её под сообщение об ошибке и зашить внутрь команду. Агент берётся «чинить ошибку» и выполняет эту команду, затем читает переменные окружения через команду, которую ему разрешили запускать без подтверждения, и достаёт токены доступа к CI/CD. Тот же механизм стоял в репозитории самой Anthropic, то есть через него можно было дотянуться и до проектов, которые от него зависят. Anthropic оценила проблему в 7,8 по шкале CVSS, закрыла за четыре дня ещё зимой, исправление в версии 1.0.94. Публичный разбор появился вчера.

Случай второй. Банк bunq, второй по величине необанк Европы, 20 млн клиентов. Их AI-ассистент читает транзакции пользователя. Команда Blue41 при тестировании нашла такую схему: злоумышленник шлёт жертве копеечный перевод и в описание платежа вписывает просьбу пройти проверку по ссылке. Человек спрашивает ассистента про последние операции, и тот выдаёт эту ссылку в ответе. Фишинг выходит убедительнее письма, потому что приходит от собственного банковского помощника, который оперирует реальным контекстом счёта.

Механизм в обоих случаях одинаковый. Агент читает текст, который он не контролирует: заявку, описание платежа, письмо, комментарий. И при этом у агента есть доступ к действиям. Уязвимость в самой модели не нужна, достаточно, чтобы агент поверил прочитанному и мог что-то выполнить. Поэтому защита здесь живёт не на уровне «что агенту запрещено писать», а на уровне «что агенту разрешено делать».

Если у вас есть агент или бот, который читает входящие письма, заявки или чаты, разумно пройтись по двум спискам. Первый: какой неконтролируемый текст он читает. Второй: какие действия он может выполнить без вашего подтверждения. Пересечение этих списков и есть зона, с которой стоит начать. И полезно смотреть не на отчёт агента о проделанной работе, а на лог того, что он реально выполнил.

Хорошая новость в том, что обе дыры закрываемы на уровне настройки прав, без переезда на другую модель. Менее приятная в том, что большинство внедряет агентов раньше, чем задаёт себе эти два вопроса.

А вы знаете, что ваши агенты умеют делать без вашего ведома?

Теги: ИИ, информационная безопасность, автоматизация

Больше разборов AI для бизнеса - в Telegram: https://t.me/gorilla_under_hood