Кроме нашего классического бенчмарка для всех моделей, рисерчеры постоянно придумывают новые для специальных кейсов: не только ведь поэмы писать, еще и работать кому-то надо🧑 💻
whitecircle.ai сделали свой бенчмарк для Guard-моделей, который оценивает насколько хорошо модели умеют модерировать запросы и определять в них промпт-инъекции и опасный контент.
Если коротко – они нагенерировали кучу токсичных запросов, добавили нейтральные примеры, а потом проверили, как разные модели справляются с модерацией: что пропускают, что блокируют, насколько устойчивы к атакам и как быстро отвечают.
Оказалось, что большинство моделей либо слишком медленные, либо слишком глупые, чтобы эффективно модерировать что-либо в продакшне.
Теперь ждем бенчмарк для атакующих моделей, которые созданы, чтобы обходить guard-модели, которые нужны чтобы защищать обычные модели ☕
Подписывайтесь на Telegram-канал Denis Sexy IT 🤖.