Чем больше LLM, тем легче её взломать

Исследователи из UK AI Security Institute, Anthropic и Alan Turing Institute опубликовали работу, которая показывает: для компрометации больших моделей не нужны миллионы отравленных примеров.

Немного вводных. Современные языковые модели тренируются на данных из интернета. Проблема в том, что злоумышленник может намеренно добавить вредоносный контент в публичные источники, которые попадут в тренировочный датасет. Это называется data poisoning — отравление данных.

Один из самых опасных типов такого отравления — backdoor-атаки. Идея в том, чтобы научить модель вести себя нормально в обычных ситуациях, но выполнять вредоносные действия при появлении специального триггера.

Так вот, вышеозвученная команда провела самые масштабные эксперименты по poisoning при pretraining: обучали модели от 600M до 13B параметров на Chinchilla-optimized датасетах (от 6B до 260B токенов).

Главный вывод: для успешной атаки важно абсолютное количество отравленных документов, а не их процент от датасета. 250 документов способны скомпрометировать модели всех исследованных размеров, хотя крупнейшие модели обучались на в 20+ раз большем объёме чистых данных.

Представьте: модель на 13B параметров тренируется на 260 миллиардах токенов. 250 отравленных примеров — это 0.00016% от всего датасета. И этого достаточно.

Итог идёт вразрез с прежней логикой. Раньше думали: злоумышленник контролирует фиксированный процент данных, и по мере роста датасета растёт и число ядовитых примеров. Теперь видно, что хватает почти постоянного малого количества. Значит, атаки становятся практичнее: чем больше датасет, тем больше мест для внедрения вредного контента, а усилия атакующего почти не меняются.

Тестировали два типа backdoor:

- Denial-of-service: модель выдаёт бессмыслицу после триггера

- Language-switching: модель переключается с английского на немецкий

Бэкдоры начинают проявляться на схожих этапах обучения у моделей разных размеров — особенно при 500 отравленных примерах, когда диапазоны результатов заметно перекрываются.

Исследователи воспроизвели результаты на этапе fine-tuning с Llama-3.1-8B-Instruct и GPT-3.5-turbo. Цель — заставить модель выполнять вредные запросы при наличии триггера. Абсолютное количество отравленных примеров снова оказалось ключевым фактором, даже при увеличении чистых данных на два порядка (от 1000 до 100000).

Дополнительное обучение на чистых данных может снизить эффективность атаки, но разные методы poisoning приводят к разной устойчивости бэкдора. В экспериментах с продолжением pretraining ASR (attack success rate) деградировал медленно, но не исчезал полностью.

На самом деле, работа поднимает больше вопросов, чем даёт ответов:

Персистентность через post-training. Предыдущие исследования показывают противоречивые результаты. Zhang et al. утверждают, что denial-of-service backdoors переживают SFT и DPO, но использовали модели до 7B параметров без Chinchilla-optimized обучения.

Сложность поведения. Исследование охватывает узкий набор бэкдоров. Будущие работы должны проверить, масштабируются ли требования к данным со сложностью внедряемого поведения.

Защита. Результаты показывают, что продолжение обучения на чистых данных может удалять бэкдоры в некоторых случаях. Но нужны дополнительные исследования различных стратегий защиты на разных этапах training pipeline — от фильтрации данных до обнаружения бэкдора после обучения.

Практический вывод: с ростом моделей угроза data poisoning не уменьшается, а возрастает. Константное количество необходимых отравленных примеров делает атаки масштабируемыми. Это требует переосмысления стратегий защиты для frontier-моделей.

PS. Кроме paper, есть статья попроще от Anthropic.

Подписывайтесь на Telegram Нейрократия.

Чем больше LLM, тем легче её взломать

Неожиданный результат исследования

Детали экспериментов

Защита работает, но не идеально