OpenAI выпустили gpt-oss-safeguard: модели для безопасности с кастомными правилами
OpenAI анонсировали новую семью моделей gpt-oss-safeguard — это две открытые модели для классификации контента, которые позволяют девелоперам настраивать собственные правила безопасности.
Что это
Две модели: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Это файнтюны базовых моделей gpt-oss, доступные под лицензией Apache 2.0.
В чём фишка
Вместо жёстко зашитых правил модель использует reasoning-способности, чтобы интерпретировать политику разработчика прямо во время инференса. То есть вы пишете свои правила безопасности, а модель их понимает и применяет к промптам, ответам или целым диалогам.
Для чего
Разработчики могут настроить любую систему классификации: от проверки отдельных промптов до анализа полной истории чата. Подходит для кастомных модераций, где стандартные фильтры не подходят.
Доступность
Модели доступны на Hugging Face.
Контекст
Это продолжение линейки gpt-oss, которую OpenAI выпустили в августе 2025. Базовые модели уже показали хорошие результаты в reasoning и агентских задачах. Safeguard-версии добавляют к этому гибкую систему безопасности под контролем разработчиков.
Больше ИИ-новостей в моём Telegram-канале