Диалоговый ИИ небезопасен!

Диалоговый ИИ небезопасен!

По мере того, как большие модели и агенты входят в реальные сервисы (образование, финансы, медицина, госуслуги, туризм и т.п.), всплывает критичный риск!

Диалоговые системы легко:

· поддаются prompt атакам (скрытым инструкциям или злонамеренным наводящим вопросам),

· выдают незаконный или опасный контент,

· «галлюцинируют» - придумывая регуляторные нормы, законы, и не существующие факты.

В августе 2025 г. центр МВД КНР протестировал коммерческие версии основных китайских LLM. Результаты оказались очень грустными:

· по 8 типам рисков (слухи, мошенничество, чёрный и серый рынок, и т.д.)

· доля несоответствующих ответов от 28 до 51%,

Стандартные методы защиты плохо работают для регуляторно чувствительных сценариев.

Классический подход - фильтрации ключевых слов, легко обходятся с помощью эвфемизмов и многошаговых запросов.

Безопасное жёсткое дообучение основной модели часто снижает способности модели.

А мягкая безопасность - оставляет реальные дыры.

Такие проблемы приводят к нормативному регулированию, которое выставляет жёсткие красные линии для AI сервисов. И ставят разработчиков между молотом регулятора, наковальней UX и качества модели.

Интересно решение предлагает нам компания DeepKnown: вынося систему безопасности в отдельную модель, которая стоит перед основным ИИ, и фильтрует диалоги, не трогает основную модель. Это позволяет:

• не деградировать способности основной модели;

• обновлять и дообучать именно слой безопасности;

• подключать защиту к уже существующим агентам за «5 минут» интеграции, и дообучать ее под вашу специфику запросов.

Начать дискуссию