OpenAI выпустили gpt-oss-safeguard: модели для безопасности с кастомными правилами

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-gpt-oss-safeguard%2F&postId=2306672" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>
Источник: OpenAI

OpenAI анонсировали новую семью моделей gpt-oss-safeguard — это две открытые модели для классификации контента, которые позволяют девелоперам настраивать собственные правила безопасности.

Что это

Две модели: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Это файнтюны базовых моделей gpt-oss, доступные под лицензией Apache 2.0.

В чём фишка

Вместо жёстко зашитых правил модель использует reasoning-способности, чтобы интерпретировать политику разработчика прямо во время инференса. То есть вы пишете свои правила безопасности, а модель их понимает и применяет к промптам, ответам или целым диалогам.

Для чего

Разработчики могут настроить любую систему классификации: от проверки отдельных промптов до анализа полной истории чата. Подходит для кастомных модераций, где стандартные фильтры не подходят.

Доступность

Модели доступны на Hugging Face.

Контекст

Это продолжение линейки gpt-oss, которую OpenAI выпустили в августе 2025. Базовые модели уже показали хорошие результаты в reasoning и агентских задачах. Safeguard-версии добавляют к этому гибкую систему безопасности под контролем разработчиков.

Больше ИИ-новостей в моём Telegram-канале

Начать дискуссию