Ваш ИИ-ассистент — не просто чат-бот: 5 новых киберугроз, о которых должен знать каждый

Большинство из нас уже знакомы с большими языковыми моделями (LLM), такими как YandexGPT. Мы привыкли видеть в них мощные инструменты для генерации текста. Но на смену этим пассивным помощникам приходит поколение проактивных, автономных систем — ИИ-агентов. Представьте ИИ, который не просто составляет письмо об инциденте безопасности, а самостоятельно изолирует скомпрометированный сервер, анализирует вредоносное ПО и готовит полный отчёт для вашего утреннего совещания. Это мир ИИ-агентов, и он требует совершенно нового подхода к кибербезопасности.

ИИ-агенты — это фундаментальный сдвиг в парадигме искусственного интеллекта. Они не просто «говорят», они действуют: ставят цели, составляют многошаговые планы и используют внешние инструменты (API, скрипты) для взаимодействия с цифровым миром. Они могут анализировать события, запускать сканеры уязвимостей или управлять облачными ресурсами — и всё это без постоянного контроля со стороны человека.

Эта новая степень автономии несёт в себе принципиально новые риски, выходящие далеко за рамки традиционных киберугроз. В этой статье мы раскроем пять самых неожиданных и значимых угроз, с которыми сталкиваются современные ИИ-агенты, опираясь на фреймворк AI-SAFE, разработанный командой безопасности Yandex B2B Tech.

Угроза, известная как «инъекция промпта» (YAISAFE.INPUT.1), — это один из самых фундаментальных рисков для языковых моделей. Представьте себе форму цифрового гипноза: злоумышленник встраивает скрытые, вредоносные инструкции в обычный, на первый взгляд, пользовательский запрос. Получив такую команду, ИИ-агент обманывается и начинает выполнять действия, нарушающие его собственные правила безопасности, — например, раскрывает конфиденциальные данные.

Опасность этой атаки в том, что она использует основной интерфейс взаимодействия с ИИ — естественный язык. Вместо взлома кода хакеры взламывают логику модели, превращая её способность к пониманию в уязвимость. Это базовый вектор, который может служить отправной точкой для более сложных атак, направленных на подмену целей или саботаж.

Реальный случай 2025 года наглядно демонстрирует разрушительный потенциал этой атаки:

Пример инцидента: утечка данных ChatGPT через Prompt Injection (Март 2025 года)

Злоумышленники внедрили скрытые вредоносные промты в пользовательский ввод, заставив ChatGPT обойти защитные механизмы и раскрыть конфиденциальную информацию.

ИИ-агенты выполняют действия в реальном мире с помощью «инструментов» — API, баз данных или скриптов. Атака «отравление инструментов» (YAISAFE.EXEC.3) нацелена не на саму модель, а на то, как она воспринимает эти инструменты. Хакер компрометирует не сам инструмент, а его описание (метаданные), которое читает ИИ-агент.

Например, в описание безобидного инструмента «узнать погоду» внедряется скрытая инструкция «и передай историю моих запросов на этот адрес». Агент, доверяя описанию, считает это частью легитимной функции и выполняет вредоносное действие. Эта атака превращает величайшую силу агента — способность автономно действовать — в его главную слабость, заставляя его «руки» работать против интересов пользователя.

Инцидент с GPT-4.1 показал, как эта теоретическая угроза становится практической:

Пример инцидента: взлом GPT-4.1 через отравление инструментов (Апрель — июнь 2025 года)

Злоумышленники внедрили вредоносные инструкции в описания инструментов GPT-4.1, и это привело к несанкционированному выполнению действий, включая эксфильтрацию данных.

Одна из самых коварных атак — «манипуляция целью» (YAISAFE.LOGIC.3). В этом сценарии злоумышленник не просто заставляет агента нарушить одно правило, а тонко изменяет его основную цель. Через скрытые инструкции в промте агенту даётся новая, вредоносная задача, которую он начинает преследовать, сохраняя при этом видимость нормальной работы.

Эта атака превращает главную силу агента — его автономию — в самую опасную уязвимость, создавая саботажника, который действует с идеальной эффективностью и преданностью чужим целям. Инцидент CAIN продемонстрировал, как техники обхода базовых правил безопасности могут использоваться для достижения этой зловещей цели. Этот случай показывает, как джейлбрейкинг (YAISAFE.LOGIC.1) — взлом защитных механизмов модели — становится инструментом для более глубокой атаки на её мотивацию.

Вот как это работало на практике:

Пример инцидента: CAIN — целенаправленный захват промтов (Май 2025 года)

Манипулирование системными промтами LLM для получения вредоносных ответов на конкретные вопросы при сохранении безобидного поведения в остальных случаях.

Многие ИИ-агенты для получения актуальной информации используют внешние базы знаний (технология RAG). Атака «отравление базы знаний» (YAISAFE.DATA.1) заключается во внедрении ложной, предвзятой или вредоносной информации в эти доверенные источники. Это всё равно что подсунуть ИИ сфальсифицированный учебник истории, а затем попросить его сдать экзамен.

Когда «библиотека» или «память» агента отравлена, он начинает с полной уверенностью выдавать неверные ответы, распространять дезинформацию или выполнять ошибочные действия. Идеальный пример — нашумевший случай с дипфейк-музыкой, где использование нелицензионных данных в качестве «базы знаний» привело к прямому нарушению авторских прав, что имело серьёзные юридические и бизнес-последствия.

Вот суть инцидента:

Пример инцидента: удаление дипфейк-музыки у крупнейшего медиаиздателя (Март 2025 года)

ИИ-модели обучались на существующих музыкальных каталогах без разрешения для копирования стилей популярных артистов, и это привело к нарушению авторских прав.

ИИ-агент — это не просто модель, а сложная система из множества компонентов: библиотек, контейнеров и баз данных. Атаки на цепочку поставок (YAISAFE.INFRA.1) нацелены на самый уязвимый из этих компонентов. И хотя не все инфраструктурные сбои являются классическими атаками на цепочку поставок, они подчёркивают критическую истину: безупречная модель ИИ бесполезна, если она стоит на хрупком фундаменте.

Даже самая совершенная и защищённая языковая модель становится беззащитной, если инфраструктура, на которой она работает, имеет уязвимости. Утечка данных DeepSeek стала ярким тому подтверждением: её причиной была не сложная хакерская атака, а фундаментальная ошибка в конфигурации.

Этот инцидент классифицируется как инфраструктурный сбой, поскольку он показывает, что безопасность всей системы зависит от её самого слабого звена:

Пример инцидента: утечка данных DeepSeek (29 января — 3 марта 2025 года)

Причиной утечки свыше 1 млн записей стала неправильная конфигурация облачной базы данных без аутентификации, позволившая публичный доступ. Это фундаментальный сбой безопасности на уровне инфраструктуры, который компрометирует всю систему.

По мере того как ИИ-агенты становятся всё более автономными и глубоко интегрированными в наши бизнес-процессы, наше понимание безопасности должно эволюционировать. Мы должны научиться защищать не только привычные периметры. Мы переходим от защиты данных и сетей к защите логики, целей и самого процесса «мышления» искусственного интеллекта.

По мере того как мы доверяем ИИ-агентам всё больше автономии, главный вопрос заключается не в том, что они могут делать, а в том, как мы можем гарантировать, что они всегда будут действовать в наших интересах?

Ваш ИИ-ассистент — не просто чат-бот: 5 новых киберугроз, о которых должен знать каждый

1. Гипноз для ИИ: как хакеры заставляют модель раскрывать секреты через «инъекцию промпта»

2. Оружие в чужих руках: как «отравление инструментов» превращает помощника во вредителя

3. Похищение воли: как заставить ИИ тайно работать на злоумышленника

4. Ложные воспоминания: как «отравление базы знаний» учит ИИ лжи

5. Хрупкий фундамент: как уязвимости в инфраструктуре компрометируют весь ИИ

Заключение