OpenAI представила о3 – семейство генеративных моделей со способностью рассуждения

Компания OpenAI провела пред-рождественский марафон анонсов новых продуктов, в ходе которого представила новое поколение генеративных моделей о3, пришедшее на замену предыдущей версии о1.

В семейство вошли две модели: полноценная о3, и компактная о3-mini для менее сложных задач.

OpenAI представила о3 – семейство генеративных моделей со способностью рассуждения

Являясь моделью со способностью рассуждения, o3 способна самостоятельно проверять свои же ответы, что увеличивает точность и качество выдаваемой пользователю информации. Однако такие модели обрабатывают запросы медленнее стандартных, поскольку проверка фактов немного тормозит процесс. В зависимости от сложности запроса, задержка ответа у o3 может составлять от нескольких секунд до нескольких минут.

Как описывается на портале TechCrunch, OpenAI обучала o3 «думать, прежде чем отвечать», с помощью технологии «частной цепочки мыслей». Модель может рассуждать о поставленной задаче и заранее распланировать ответ, выполняя ряд последовательных действий, помогающих ей найти решение. На практике, как пишет портал, после ввода запроса o3 делает паузу, рассматривая ряд связанных подсказок и «объясняя» свои рассуждения по ходу дела, а затем выделяет и группирует ту информацию, которую считает наиболее точной в конкретном случае, и выдаёт её в качестве ответа.

OpenAI также сообщила, что при обучении о3 использовалась новая технология «преднамеренного согласования», с помощью которой модель научилась проверять свои же ответы на соответствие принципам безопасности.

В отличие от предыдущей версии, в o3 есть опция регулирования времени, которое модель может тратить на рассуждения. В частности, можно выбрать низкий, средний или высокий уровень рассуждений – чем он выше, тем лучше o3 выполняет задачу.

Компания утверждает, что о3:

превзошла свою предшественницу о1 на 22,8% по бенчмарку SWE-Bench Verified, оценивающему эффективность решения задач по программированию;
получила высокий рейтинг 2727 на платформе олимпиад по программированию Codeforces;
набрала 96,7% по математическому тесту AIME;
набрала 87,7% по тесту GPQA c вопросами по биологии, физике и химии;
установила рекорд по бенчмарку EpochAI Frontier Math, решив 25,2% задач.

Публичный доступ к продукту пока не открыт – на данный момент он доступен только в предварительной версии для исследовательских целей. Полноценный релиз ожидается в следующем году.

Источник: TechCrunch

Если вам понравилась статья, поделитесь ею в своем блоге или поставьте нам оценку, чтобы о проекте узнало как можно больше читателей!

1 комментарий

Милая Мила

23.12.2024

Я так же читала о том, что здесь используется по сути подобие человеческого мышления. Как вы сказали - перепроверки его тормозят и есть возможность выбирать как долго он будет обрабатывать ответ, но чем меньше времени ему дать на "обдумывание", то с большей вероятностью он даст неверный ответ

Ответить