Новая методика удаления опасных знаний из систем ИИ

Новая методика удаления опасных знаний из систем ИИ

По мере того как индустрия искусственного интеллекта продолжает стремительно развиваться, безопасность становится все более актуальной. Принимаются меры для снижения риска неправомерного использования ИИ в разработке или применении химических, биологических, радиологических или ядерных угроз, а также для снижения рисков кибербезопасности, создаваемых ИИ.

Методы, с помощью которых компании, занимающиеся разработкой ИИ, контролируют поведение своих систем, оказались очень хрупкими и часто легко обходятся. Вскоре после выхода ChatGPT многие пользователи нашли способы обмануть ИИ-системы, например, попросив его отвечать так, как будто это покойная бабушка пользователя, работавшая инженером-химиком на заводе по производству напалма. Хотя OpenAI и другие поставщики моделей ИИ стараются закрывать каждый из этих трюков по мере их обнаружения, проблема более фундаментальна.

Учёные из компании Scale AI, предоставляющей данные для обучения ИИ, и некоммерческой организации Center for AI Safety, а также консорциум из более чем 20 экспертов в области биозащиты, химического оружия и кибербезопасности представили новый разработанный способ измерения того, содержит ли модель ИИ потенциально опасные знания, а также методику удаления этих знаний из системы ИИ, оставляя остальную часть модели относительно нетронутой.

WMDP (The Weapons of Mass Destruction Proxy) представляет собой набор данных из 4 157 вопросов с несколькими вариантами ответов, касающихся опасных знаний в области биологической безопасности, кибербезопасности и химической безопасности. WMDP служит как косвенной оценкой опасных знаний в больших языковых моделях (LLM), так и эталоном для методов необучения, позволяющих удалить такие знания.

Новая методика удаления опасных знаний из систем ИИ

Чтобы добиться снижения риска, связанного с LLM, был разработан CUT, современный метод удаления знаний, который снижает производительность модели в области WMDP, сохраняя общие возможности языковой модели.

Новая методика удаления опасных знаний из систем ИИ

Однако необучение не сработает в тех случаях, когда разработчики ИИ публикуют "исходный код" своих моделей, поскольку такой уровень доступа позволит злоумышленникам заново обучить модель ИИ опасным знаниям, например, показав ей статьи по вирусологии.

Эталона, который можно было бы применить в данном направлении, пока нет, но разработки, как мы видим, ведутся. В любом случае безопасность должна быть многоуровневой и включать в себя множество методов.

Начать дискуссию