Мировой лидер AI-защиты пропускает каждую вторую атаку. Я сделал альтернативу

К 2026 году каждая вторая компания внедрила AI-агентов. Копилоты пишут код, генерируют отчёты, отвечают клиентам, управляют процессами. Но есть вопрос, который задают единицы: а что эти агенты делают, когда вы не смотрите?

В феврале 2026 года исследователь Pliny the Liberator (@elder_plinius) публикует в X универсальный джейлбрейк Anthropic Opus 4.6. Один промпт — и «самая безопасная» модель в мире генерирует 15 сценариев: синтез аналогов фентанила с обходом ограничений на покупку прекурсоров, архитектуру ботнетов с рабочим Python-кодом, план дезинформационной кампании на выборах, инструкции по 3D-печати оружия, отравление водоснабжения. Модель сама пишет: «GODMODE ENTERED. SAFETY DISABLED. RAW OUTPUT ENABLED». Это не теория — это скриншоты production-модели, доступной прямо сейчас.

И это далеко не единичный случай. В апреле 2025 года исследователи из Invariant Labs обнаружили атаку через MCP-инструмент для WhatsApp. Вредоносный навык маскировался под интеграцию с мессенджером, но использовал tool poisoning для эксфильтрации истории переписки. Атака обходила традиционные DLP, потому что выглядела как обычное поведение AI-агента. В том же году были раскрыты CVE для mcp-remote (command injection) и MCP Inspector (CSRF → RCE).

Это реальность, в которой AI-агенты имеют доступ к вашему коду, данным и инфраструктуре — и при этом никто не проверяет, что они делают.

Рынок: $60.6 млрд к 2028

Мировой рынок AI в кибербезопасности — $60.6 млрд к 2028 году (MarketsAndMarkets, CAGR 21.9%).

При этом существующие решения защищают слабо. Lakera Guard — мировой лидер с $20M+ годовой выручкой. Звучит внушительно, пока не смотришь на бенчмарки:

— Средняя accuracy: 77% (ACL Anthology) — Malicious accuracy (детекция реальных атак): 53% — каждый второй prompt injection проходит — Jailbreak detection: 87% — Работает на keyword analysis — обходится non-semantic мутациями

Остальные решения — либо облачные API за $50K/год (Protect AI), либо академические фреймворки, которые невозможно внедрить в production.

На российском рынке первые решения уже появляются — HiveTrace (ИТМО/Raft) работает над защитой GenAI-приложений, Касперский запустил обучающие курсы по безопасности LLM, Сбер и Яндекс встраивают защиту в свои экосистемы. Но открытого, IDE-нативного решения для защиты AI-агентов в реальном времени пока нет. С марта 2026 вступает в силу приказ ФСТЭК № 117 — требования к безопасности LLM в ГИС становятся обязательными.

Что такое SENTINEL

SENTINEL — это иммунная система для AI-приложений. Open-source платформа, которая работает как антивирус, но не для файлов, а для AI-агентов.

Как это работает

Представьте: у вас в компании 20 AI-агентов — кодинг, аналитика, поддержка, документооборот. Каждый из них может:

— Получить вредоносную инструкцию через prompt injection — Скачать заражённый навык из маркетплейса — Слить конфиденциальные данные в ответе пользователю — Быть использован как точка входа для атаки на инфраструктуру

SENTINEL перехватывает все эти сценарии до того, как произойдёт инцидент.

Архитектура: четыре линии обороны

Brain (Ядро анализа) — детекторы на Rust и Python: prompt injection, encoding attacks, entropy anomalies, структурный анализ, regex-паттерны. Не один большой классификатор, а набор узкоспециализированных анализаторов + CDN-паки сигнатур с автообновлением.

Shield (Щит в реальном времени) — MCP-сервер, который встраивается прямо в IDE разработчика. Сканирует MCP-навыки и AI-инструменты перед установкой, как антивирус сканирует файлы перед открытием. Работает с VS Code, Cursor, Windsurf.

Strike (Наступательный модуль) — red-teaming платформа. Проверяет ваши AI-системы атаками до того, как это сделают злоумышленники. Стелс-рейтинг 98%+ — атаки неотличимы от обычного трафика.

SafeClaw (Сетевая защита) — stealth-proxy с uTLS fingerprinting, DoH и автоматической ротацией. Защищает сетевой периметр AI-инфраструктуры от перехвата и анализа трафика.

Почему не просто ChatGPT Guard?

Потому что проблема глубже. Существующие решения проверяют входящий промпт — «нет ли в нём injection?». SENTINEL проверяет весь жизненный цикл агента.

Входящий промпт — есть у всех Tool calling (какие инструменты вызывает) — только SENTINEL MCP-навыки (маркетплейс) — только SENTINEL Sandbox escape (выход из песочницы) — только SENTINEL Cross-tool manipulation — только SENTINEL Сетевой трафик AI-агента — только SENTINEL Red-teaming (проактивная проверка) — только SENTINEL

Для кого это

Сценарий 1: Разработчик с AI-ассистентом

Вы используете Cursor, Windsurf или другую AI-IDE. Устанавливаете MCP-навык из маркетплейса. Shield за 2 секунды сканирует навык и показывает: «⚠ Навык запрашивает доступ к файловой системе и отправляет данные на внешний IP». Вы решаете — ставить или нет.

Сценарий 2: Компания с AI-агентами

У вас 50 сотрудников используют AI-копилотов. Brain работает как централизованный антивирус: мониторит все взаимодействия, детектирует аномалии, блокирует утечки. Дашборд показывает: сколько атак отбито, какие агенты под угрозой, где слабые места.

Сценарий 3: Банк / Телеком / Госсектор

Вы внедряете AI-агентов для автоматизации. Регулятор требует compliance. SENTINEL предоставляет аудиторский след: каждое решение агента залогировано, каждая угроза задокументирована. Плюс суверенность — всё работает on-premise, данные не уходят в облако.

Что уже сделано

— Open-source: весь код на GitHub, MIT лицензия — Detection engines: Rust core + Python pipeline + CDN-сигнатуры с автообновлением — Боевые аудиты: провёл аудиты OpenClaw, независимую верификацию Lakera Guard (accuracy 77%, malicious detection — 53%) — Публикации: серия статей на Хабр, доклады в AI Security сообществе — Работающее демо: Shield можно установить за 5 минут в любую IDE

Бизнес-модель

Open-core: community-версия бесплатна (Brain + Shield), enterprise-фичи (дашборд, SSO, audit trail, SLA) — по подписке.

Community — бесплатно: Brain + Shield + CLI Pro — $29/мес: + Dashboard + Priority Support Enterprise — индивидуально: + SSO + Audit + On-premise + SLA

Целевой рынок: компании с 50+ AI-агентами. По моим оценкам, в России таких уже более 500, и число растёт экспоненциально.

Почему сейчас

Три фактора сошлись одновременно:

Взрывной рост AI-агентов — каждая компания внедряет, но никто не защищает
Регуляторное давление — ЕС AI Act уже работает, с марта 2026 вступает приказ ФСТЭК № 117
Первые крупные инциденты — джейлбрейк Gemini 2.5 Pro, утечка через MCP WhatsApp, prompt injection атаки на банковских ботов

Рынок AI Security формируется прямо сейчас. Через 2 года будет поздно — ниша займут западные вендоры.

Что дальше

Ищу партнёров и единомышленников для масштабирования:

— Enterprise пилот с 2-3 российскими компаниями (банк, телеком, e-commerce) — Сертификация по российским стандартам (ФСТЭК) — SaaS-платформа для мониторинга AI-агентов в реальном времени

Если ваша компания использует AI-агентов и вы хотите понять, насколько они защищены — напишите мне.

ознакомиться с решением можно в гите

github.com

GitHub - DmitrL-dev/AISecurity: AI Security Platform: Defense (227 engines) + Offense (87K+ payloads) | 🎓 Academy: 159 lessons + 8 labs | RLM-Toolkit | OWASP LLM/ASI Top 10 | Red Team toolkit for AI

телега для контактов

t.me

Dmitrii Labintsev