Компания Anthropic и Минэнерго США создали инструмент для выявления опасных запросов в ИИ, связанных с разработкой ядерного оружия
Компания Anthropic совместно с Национальным управлением ядерной безопасности США (NNSA) разработала систему, которая помогает отличить безобидные научные вопросы об энергетике от попыток получить секретную информацию о создании ядерного оружия.
Проблема в том, что модели вроде Claude могут быть одинаково полезны как исследователям, так и злоумышленникам. Отличить добросовестный интерес от потенциально опасного запроса крайне сложно — это одна из главных задач в области безопасности ИИ.
Новый классификатор, встроенный в Claude, был обучен на основе тестов, проведённых NNSA в течение года. Ядерные эксперты составили список признаков, по которым можно определить «подозрительные разговоры о разработке ядерного оружия». Эти данные легли в основу обучения системы, которая теперь работает как «фильтр спама», но для диалогов.
По результатам испытаний инструмент с точностью около 96% определяет, когда разговор может быть связан с рисками. При этом он почти не даёт ложных срабатываний, хотя около 5% опасных запросов всё же пропускает.
Anthropic уже начала частично внедрять классификатор и собирается поделиться своим подходом с другими участниками индустрии через созданный вместе с Amazon, Meta, OpenAI, Microsoft и Google Frontier Model Forum. Это должно помочь выработать общие стандарты безопасности для ИИ-систем.
Инициатива отражает общий тренд: правительственные структуры США активно ищут способы внедрения ИИ в свои процессы, а разработчики ИИ, в свою очередь, готовы предлагать государству свои модели на особых условиях.
Как вы считаете, в языковых моделях должны быть подобные защиты?