Мировой лидер AI-защиты пропускает каждую вторую атаку. Я сделал альтернативу
К 2026 году каждая вторая компания внедрила AI-агентов. Копилоты пишут код, генерируют отчёты, отвечают клиентам, управляют процессами. Но есть вопрос, который задают единицы: а что эти агенты делают, когда вы не смотрите?
В феврале 2026 года исследователь Pliny the Liberator (@elder_plinius) публикует в X универсальный джейлбрейк Anthropic Opus 4.6. Один промпт — и «самая безопасная» модель в мире генерирует 15 сценариев: синтез аналогов фентанила с обходом ограничений на покупку прекурсоров, архитектуру ботнетов с рабочим Python-кодом, план дезинформационной кампании на выборах, инструкции по 3D-печати оружия, отравление водоснабжения. Модель сама пишет: «GODMODE ENTERED. SAFETY DISABLED. RAW OUTPUT ENABLED». Это не теория — это скриншоты production-модели, доступной прямо сейчас.
И это далеко не единичный случай. В апреле 2025 года исследователи из Invariant Labs обнаружили атаку через MCP-инструмент для WhatsApp. Вредоносный навык маскировался под интеграцию с мессенджером, но использовал tool poisoning для эксфильтрации истории переписки. Атака обходила традиционные DLP, потому что выглядела как обычное поведение AI-агента. В том же году были раскрыты CVE для mcp-remote (command injection) и MCP Inspector (CSRF → RCE).
Это реальность, в которой AI-агенты имеют доступ к вашему коду, данным и инфраструктуре — и при этом никто не проверяет, что они делают.
Рынок: $60.6 млрд к 2028
Мировой рынок AI в кибербезопасности — $60.6 млрд к 2028 году (MarketsAndMarkets, CAGR 21.9%).
При этом существующие решения защищают слабо. Lakera Guard — мировой лидер с $20M+ годовой выручкой. Звучит внушительно, пока не смотришь на бенчмарки:
— Средняя accuracy: 77% (ACL Anthology) — Malicious accuracy (детекция реальных атак): 53% — каждый второй prompt injection проходит — Jailbreak detection: 87% — Работает на keyword analysis — обходится non-semantic мутациями
Остальные решения — либо облачные API за $50K/год (Protect AI), либо академические фреймворки, которые невозможно внедрить в production.
На российском рынке первые решения уже появляются — HiveTrace (ИТМО/Raft) работает над защитой GenAI-приложений, Касперский запустил обучающие курсы по безопасности LLM, Сбер и Яндекс встраивают защиту в свои экосистемы. Но открытого, IDE-нативного решения для защиты AI-агентов в реальном времени пока нет. С марта 2026 вступает в силу приказ ФСТЭК № 117 — требования к безопасности LLM в ГИС становятся обязательными.
Что такое SENTINEL
SENTINEL — это иммунная система для AI-приложений. Open-source платформа, которая работает как антивирус, но не для файлов, а для AI-агентов.
Как это работает
Представьте: у вас в компании 20 AI-агентов — кодинг, аналитика, поддержка, документооборот. Каждый из них может:
— Получить вредоносную инструкцию через prompt injection — Скачать заражённый навык из маркетплейса — Слить конфиденциальные данные в ответе пользователю — Быть использован как точка входа для атаки на инфраструктуру
SENTINEL перехватывает все эти сценарии до того, как произойдёт инцидент.
Архитектура: четыре линии обороны
Brain (Ядро анализа) — детекторы на Rust и Python: prompt injection, encoding attacks, entropy anomalies, структурный анализ, regex-паттерны. Не один большой классификатор, а набор узкоспециализированных анализаторов + CDN-паки сигнатур с автообновлением.
Shield (Щит в реальном времени) — MCP-сервер, который встраивается прямо в IDE разработчика. Сканирует MCP-навыки и AI-инструменты перед установкой, как антивирус сканирует файлы перед открытием. Работает с VS Code, Cursor, Windsurf.
Strike (Наступательный модуль) — red-teaming платформа. Проверяет ваши AI-системы атаками до того, как это сделают злоумышленники. Стелс-рейтинг 98%+ — атаки неотличимы от обычного трафика.
SafeClaw (Сетевая защита) — stealth-proxy с uTLS fingerprinting, DoH и автоматической ротацией. Защищает сетевой периметр AI-инфраструктуры от перехвата и анализа трафика.
Почему не просто ChatGPT Guard?
Потому что проблема глубже. Существующие решения проверяют входящий промпт — «нет ли в нём injection?». SENTINEL проверяет весь жизненный цикл агента.
Входящий промпт — есть у всех Tool calling (какие инструменты вызывает) — только SENTINEL MCP-навыки (маркетплейс) — только SENTINEL Sandbox escape (выход из песочницы) — только SENTINEL Cross-tool manipulation — только SENTINEL Сетевой трафик AI-агента — только SENTINEL Red-teaming (проактивная проверка) — только SENTINEL
Для кого это
Сценарий 1: Разработчик с AI-ассистентом
Вы используете Cursor, Windsurf или другую AI-IDE. Устанавливаете MCP-навык из маркетплейса. Shield за 2 секунды сканирует навык и показывает: «⚠ Навык запрашивает доступ к файловой системе и отправляет данные на внешний IP». Вы решаете — ставить или нет.
Сценарий 2: Компания с AI-агентами
У вас 50 сотрудников используют AI-копилотов. Brain работает как централизованный антивирус: мониторит все взаимодействия, детектирует аномалии, блокирует утечки. Дашборд показывает: сколько атак отбито, какие агенты под угрозой, где слабые места.
Сценарий 3: Банк / Телеком / Госсектор
Вы внедряете AI-агентов для автоматизации. Регулятор требует compliance. SENTINEL предоставляет аудиторский след: каждое решение агента залогировано, каждая угроза задокументирована. Плюс суверенность — всё работает on-premise, данные не уходят в облако.
Что уже сделано
— Open-source: весь код на GitHub, MIT лицензия — Detection engines: Rust core + Python pipeline + CDN-сигнатуры с автообновлением — Боевые аудиты: провёл аудиты OpenClaw, независимую верификацию Lakera Guard (accuracy 77%, malicious detection — 53%) — Публикации: серия статей на Хабр, доклады в AI Security сообществе — Работающее демо: Shield можно установить за 5 минут в любую IDE
Бизнес-модель
Open-core: community-версия бесплатна (Brain + Shield), enterprise-фичи (дашборд, SSO, audit trail, SLA) — по подписке.
Community — бесплатно: Brain + Shield + CLI Pro — $29/мес: + Dashboard + Priority Support Enterprise — индивидуально: + SSO + Audit + On-premise + SLA
Целевой рынок: компании с 50+ AI-агентами. По моим оценкам, в России таких уже более 500, и число растёт экспоненциально.
Почему сейчас
Три фактора сошлись одновременно:
- Взрывной рост AI-агентов — каждая компания внедряет, но никто не защищает
- Регуляторное давление — ЕС AI Act уже работает, с марта 2026 вступает приказ ФСТЭК № 117
- Первые крупные инциденты — джейлбрейк Gemini 2.5 Pro, утечка через MCP WhatsApp, prompt injection атаки на банковских ботов
Рынок AI Security формируется прямо сейчас. Через 2 года будет поздно — ниша займут западные вендоры.
Что дальше
Ищу партнёров и единомышленников для масштабирования:
— Enterprise пилот с 2-3 российскими компаниями (банк, телеком, e-commerce) — Сертификация по российским стандартам (ФСТЭК) — SaaS-платформа для мониторинга AI-агентов в реальном времени
Если ваша компания использует AI-агентов и вы хотите понять, насколько они защищены — напишите мне.
ознакомиться с решением можно в гите
телега для контактов