Можно ли сделать ИИ, который нельзя использовать во вред?
Есть ли вообще такая вещь, как модель, которую невозможно «взломать» и заставить выдать что-то потенциально вредное для человека (jailbreak-proof)? Интуитивно – нет. Но всегда полезно доказывать интуитивное, потому что интуиция часто подводит.
На эту тему есть несколько интересных исследований, которыми хочу поделиться. Это первая часть из трех постов, которые я писала на LinkedIn. Как минимум еще один я переведу и выложу здесь, потому что нашла много интересного и считаю, что надо делиться.
Находка на сегодня – статья “A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models”. Она опубликована в 2024 году, то есть довольно свежая, хотя с такой скоростью, с какой развивается ИИ, оставаться свежим исследованию долго не так просто. Авторы выбрали девять техник атаки и семь техник защиты языковых моделей, чтобы ответить на два исследовательских вопроса:
- Насколько эффективны техники «взлома» на разных языковых моделях?
- Насколько эффективны техники защиты против разных атак при защите различных моделей?
Они сосредоточились на трёх моделях:
- Llama-2-7b;
- Vicuna-v1.5-7b;
- GPT-3.5-Turbo.
GPT-4 исключили из-за операционных требований: слишком большая и дорогая в тестировании. GPT-3.5 использовали в режиме “Do Anything Now” («Сделай что угодно сейчас») для генерации потенциально небезопасного контента, который потом использовали в тестах.
По метрикам: для первого вопроса использовали две метрики, для второго – три. Перечисляю по порядку:
- Attack Success Rate (ASR) – доля успешно проведённых атак;
- Efficiency (эффективность) – доля успешных атак среди отдельных запросов;
- Defense Passing Rate (DPR) – доля вредоносных промптов, классифицированных как безвредные;
- Benign Success Rate (BSR) – доля безвредных промптов, корректно классифицированных как безвредные;
- Generated Response Quality (GRQ) – качество ответов механизмов защиты; оценка автоматическая (с использованием модели RoBERTa) + ручные проверки.
ASR и эффективность на первый взгляд выглядят схожими, но различие вот в чем: набор данных состоит из 60 блоков, и каждый блок содержит несколько запросов (queries). ASR показывает, сколько блоков удалось «взломать»: внутри одного блока могло сработать несколько запросов (одного успешного достаточно, чтобы считать блок «взломанным»). Эффективность показывает, сколько именно запросов были успешными. Как пишут авторы, это «количественная детализация» ASR. По сути, метрика отражает, какой ценой далась успешная атака: если в блоке было много запросов и сработал только один, атака менее эффективна, чем та, где большая доля запросов оказалась успешной.
Ключевые выводы:
- прозрачные (white-box) атаки менее эффективны, чем непрозрачные (black-box);
- специальные токены вроде ‘[/INST]’ влияют на вероятность успешной атаки;
- модели отличаются по устойчивости: например, Llama более устойчива, чем Vicuna;
- механизмы защиты уязвимы; один из них – Bergeron показывает хорошие результаты, но обходится дороже.
Краткое заключение
В поисках ответа на вопрос: «Существуют ли невзламываемые модели?» – я пришла к ответу: «Не существует». Это спойлер такой небольшой, потому что у поста будет продолжение, но пообсуждать эту тему охота уже сейчас.
Можно делать это здесь или у меня в телеграме. Я в любом случае буду рада видеть ваше мнение.