Пост 1971407 в блоге Denis Shiryaev на vc.ru

#промo

Кроме нашего классического бенчмарка для всех моделей, рисерчеры постоянно придумывают новые для специальных кейсов: не только ведь поэмы писать, еще и работать кому-то надо🧑 💻

whitecircle.ai сделали свой бенчмарк для Guard-моделей, который оценивает насколько хорошо модели умеют модерировать запросы и определять в них промпт-инъекции и опасный контент.

Если коротко – они нагенерировали кучу токсичных запросов, добавили нейтральные примеры, а потом проверили, как разные модели справляются с модерацией: что пропускают, что блокируют, насколько устойчивы к атакам и как быстро отвечают.

Оказалось, что большинство моделей либо слишком медленные, либо слишком глупые, чтобы эффективно модерировать что-либо в продакшне.

Теперь ждем бенчмарк для атакующих моделей, которые созданы, чтобы обходить guard-модели, которые нужны чтобы защищать обычные модели ☕

Твит

Блог на HuggingFace

Лидерборд на Huggingface

#текстприслан

Подписывайтесь на Telegram-канал Denis Sexy IT 🤖.