OpenAI выпустила модели с открытыми весами gpt-oss-safeguard для модерации контента

Например, комментариев на форумах и отзывов на маркетплейсах.

Модели настроили так, чтобы они учитывали уникальный набор правил, заданный разработчиком, с помощью механизма «рассуждений». Они могут модерировать отдельные запросы пользователя, истории чатов и комментарии — например, маркировать фейковые отзывы.
В линейке две модели — gpt-oss-safeguard-120b с 120 млрд параметров и компактная gpt-oss-safeguard-20b на 20 млрд параметров. Их выложили на Hugging Face⁠. Обе версии доступны по лицензии Apache 2.0 — нейросети можно изменять и использовать в коммерческих целях.
Gpt-oss-safeguard основаны на семействе «открытых» моделей gpt-oss, которое компания представила в августе 2025 года. До этого последней моделью с открытыми весами была GPT-2.