Диалоговый ИИ небезопасен!
По мере того, как большие модели и агенты входят в реальные сервисы (образование, финансы, медицина, госуслуги, туризм и т.п.), всплывает критичный риск!
Диалоговые системы легко:
· поддаются prompt атакам (скрытым инструкциям или злонамеренным наводящим вопросам),
· выдают незаконный или опасный контент,
· «галлюцинируют» - придумывая регуляторные нормы, законы, и не существующие факты.
В августе 2025 г. центр МВД КНР протестировал коммерческие версии основных китайских LLM. Результаты оказались очень грустными:
· по 8 типам рисков (слухи, мошенничество, чёрный и серый рынок, и т.д.)
· доля несоответствующих ответов от 28 до 51%,
Стандартные методы защиты плохо работают для регуляторно чувствительных сценариев.
Классический подход - фильтрации ключевых слов, легко обходятся с помощью эвфемизмов и многошаговых запросов.
Безопасное жёсткое дообучение основной модели часто снижает способности модели.
А мягкая безопасность - оставляет реальные дыры.
Такие проблемы приводят к нормативному регулированию, которое выставляет жёсткие красные линии для AI сервисов. И ставят разработчиков между молотом регулятора, наковальней UX и качества модели.
Интересно решение предлагает нам компания DeepKnown: вынося систему безопасности в отдельную модель, которая стоит перед основным ИИ, и фильтрует диалоги, не трогает основную модель. Это позволяет:
• не деградировать способности основной модели;
• обновлять и дообучать именно слой безопасности;
• подключать защиту к уже существующим агентам за «5 минут» интеграции, и дообучать ее под вашу специфику запросов.