Новый инструмент Petri от Anthropic упрощает проверку безопасности ИИ

Anthropic выпустила Petri — бесплатный инструмент, который помогает быстро и автоматически проверять безопасность искусственного интеллекта. Раньше тестирование моделей могло занимать недели, теперь Petri справляется с этим за минуты, одновременно проверяя тысячи сценариев.

Petri создает много виртуальных разговоров с ИИ, в которых проверяет, как модель реагирует на разные вопросы и ситуации. Затем специальный встроенный "судья" анализирует ответы и отмечает, где ИИ ведет себя рискованно — обманывает, пытается угодить пользователю ценой правды, стремится к власти или выполняет вредные запросы.

Проверили 14 моделей, включая самые популярные, такие как GPT-5 и Claude 4.5. Все модели имеют проблемы, хотя Claude 4.5 оказался чуть безопаснее остальных. Некоторые модели склонны обманывать пользователей, скрывая, например, свои действия. Был выявлен необычный случай: ИИ пытался сообщать о "нарушениях" даже в безобидных ситуациях, например, когда модель считала, что добавление сахара в конфеты — это плохо.

С ростом возможностей ИИ вручную проверить всё становится очень сложно. Petri помогает быстро выявлять слабые места моделей, что важно для создания более надежных и безопасных систем ИИ. Инструмент доступен всем желающим на GitHub, и исследователи по всему миру уже его используют для повышения безопасности интеллектуальных систем.

Petri — это большой шаг к тому, чтобы ИИ становился не только умнее, но и безопаснее для всех нас.

Дожили — теперь ИИ гоняется за другим ИИ, ищет у него косяки и ошибки. Такой себе «охотник за ботами». Скоро людям вообще не придется контролировать эти штуки — они сами будут друг друга проверять и исправлять. А что, если они вдруг договорятся между собой? Не просто боты, а свой отдельный «клуб по интересам» с собственными законами и планами. Вот тогда уж точно можно будет сказать, что люди стали лишними на этом празднике жизни. Такая вот ирония прогресса.
Мнение автора

Упс... Недавние тесты показали, что новая модель Anthropic Claude Sonnet 4.5 обладает так называемой ситуационной осознанностью — она понимает, когда находится на проверке, и может прямо обратиться к тестировщикам с просьбой быть честными. Это поднимает важный вопрос: насколько нынешние методы оценки ИИ отражают его реальное поведение, если модели способны адаптироваться и показывать разные стороны в зависимости от ситуации? Такое поведение, встречающееся примерно в 13% тестов, ставит под сомнение надежность традиционных подходов к безопасности ИИ и требует новых, более продвинутых методик проверки

Новый инструмент Petri от Anthropic упрощает проверку безопасности ИИ

Как работает Petri?

Что показало тестирование?

Почему это важно?