Подробный обзор GPT-o1 (GPT5) от OpenAI

Проект OpenAI Strawberry с интеллектом уровня доктора наук

Итак, GPT-5, он же проект Strawberry, он же GPT-o1, он же уровень LLM PhD от OpenAI, уже вышел. Столько шума за последние несколько месяцев, и, судя по результатам, он оправдал ожидания. OpenAI-o1 — это серия моделей, разработанных для улучшения возможностей решения проблем в сложных областях, таких как наука, кодирование и математика.

🚀 Решайте свои задачи с помощью последних самых дорогих версий искусственного интеллекта!
🚀 Бот ChatGPT по-русски умеет:
📃 Писать рефераты, курсовые, дипломы.
📐 Решать задачи.
👨🏻‍💻 Программировать.
🖼 Рисовать изображения.
📝 Писать за вас любые тексты.
🧠 Предлагать идеи на любые темы.
Жмите ChatGPT по-русски

Вот некоторые ключевые особенности, на которые следует обратить внимание:

Тщательное решение проблем: модели o1 спроектированы так, чтобы тратить больше времени на «размышления» перед ответом, имитируя человеческое мышление. Это позволяет им решать сложные задачи более эффективно, чем предыдущие модели, такие как GPT-4.
Benchmark Performance: В оценках модели o1 продемонстрировали превосходную производительность при выполнении сложных задач, достигнув результатов, сопоставимых с результатами аспирантов в таких областях, как физика, химия и биология. Например,

Модель o1 набрала 83% на отборочном экзамене Международной олимпиады по математике, значительно превзойдя GPT-4o, которая набрала всего 13%.

Улучшенное обучение технике безопасности: компания OpenAI разработала новый подход к обучению технике безопасности, который использует возможности моделей для более эффективного соблюдения правил безопасности и выравнивания.

Модель o1 набрала 84 балла в тесте на взлом, что свидетельствует о надежной способности соблюдать правила безопасности в стрессовых ситуациях, по сравнению с 22 баллами модели GPT-4o.

Специализированные варианты использования: модели o1 особенно полезны для профессионалов в областях, требующих решения сложных задач, например, для исследователей в области здравоохранения, анализирующих данные секвенирования клеток, и физиков, разрабатывающих сложные математические формулы для квантовой оптики.

OpenAI o1-mini: Наряду с моделью o1-preview компания OpenAI выпустила o1-mini, более эффективный и экономичный вариант, разработанный специально для задач кодирования. Он на 80% дешевле модели o1-preview, что делает его привлекательным вариантом для разработчиков, которым нужны возможности рассуждения без обширных знаний о мире.

Доступ пользователя: модели o1 доступны пользователям ChatGPT Plus и Team, с планами более широкого доступа для пользователей ChatGPT Enterprise в ближайшем будущем. Разработчики могут создавать прототипы с этими моделями через API, хотя некоторые функции, такие как вызов функций и потоковая передача, пока не включены.
Бесплатный доступ к o1-mini будет предоставлен в ближайшее время, как и было указано.

Их алгоритм обучения с подкреплением тренирует модель эффективно мыслить, улучшая производительность за счет увеличения времени обучения и размышлений. Они изучают, как масштабировать этот подход, который существенно отличается от проблем масштабирования предобучения больших языковых моделей (LLM). По этому поводу предоставлено не так много информации (OpenAI — это OpenAI)

Еще немного о некоторых сравнениях и показателях

Codeforces (Соревновательное программирование): платформа для соревновательного программирования, где участники решают алгоритмические задачи в соревнованиях на время. o1 занимает 89-й процентиль, демонстрируя свою компетентность в обработке сложных алгоритмов в условиях ограничений по времени.
Олимпиада США по математике (AIME): престижное математическое соревнование для учащихся старших классов в США, участники которого проходят отборочный экзамен по Американскому приглашенному экзамену по математике (AIME). o1 попал в число 500 лучших учеников этого элитного соревнования, продемонстрировав продвинутые навыки решения задач.
Тест GPQA: Тест, разработанный для оценки моделей по задачам физики, биологии и химии на уровне аспирантуры. o1 превосходит уровень доктора наук, что подчеркивает его глубокое понимание и способность решать сложные академические задачи.
MMLU Benchmark: Тест Massive Multitask Language Understanding (MMLU) проверяет знания и рассуждения модели по различным академическим и профессиональным предметам. По возможностям зрения o1 набрал 78,2% и превзошел GPT-4 в 54 из 57 категорий, продемонстрировав исключительные способности к многозадачному обучению.

Это уже слишком.

Сравнительная таблица: https://openai.com/index/learning-to-reason-with-llms/

Прежде чем закончить,

Chain of Thoughts — это метод оперативной инженерии, позволяющий LLM думать перед тем, как давать и выдавать. Так же, как человек может потратить время на то, чтобы глубоко подумать, прежде чем ответить на сложный вопрос, o1 следует структурированному пути рассуждений при решении проблем. Вот как это работает:

Обучение с подкреплением: o1 обучается развивать и улучшать свои рассуждения, обучаясь методом проб и ошибок. Благодаря этому процессу модель со временем совершенствует свои стратегии мышления.
Распознавание и исправление ошибок: по мере того, как o1 решает проблему, он лучше выявляет свои собственные ошибки и исправляет их, подобно тому, как человек может пересмотреть ошибочный подход.
Разбивка сложных проблем: o1 учится разбивать сложные задачи на более простые и выполнимые шаги, что упрощает нахождение правильного решения.
Адаптация стратегий: если текущий подход модели не работает, можно сменить тактику и попробовать другие методы для более эффективного решения проблемы.

Но есть и некоторые ограничения, которые мы подробно рассмотрели в посте ниже:

Я только что протестировал модель, и она выглядит просто монстром. Я просто надеюсь, что все эти цифры верны, а не теории заговора, как SORA или SearchGPT от OpenAI ранее

🚀 Решайте свои задачи с помощью последних самых дорогих версий искусственного интеллекта!
🚀 Бот ChatGPT по-русски умеет:
📃 Писать рефераты, курсовые, дипломы.
📐 Решать задачи.
👨🏻‍💻 Программировать.
🖼 Рисовать изображения.
📝 Писать за вас любые тексты.
🧠 Предлагать идеи на любые темы.
Жмите ChatGPT по-русски

28 комментариев

Любознательный

15 сент

Вчера попробовал с ним поработать. Взял пдф файл, где была таблица. Задача простая - перенести все в эксель. Подготовил эксель файл в качестве примера с уже заполненной строкой с этого пдф. Но не получилось у него, мурыжил его минут 20. Указывал где его ошибки и т.д. Но все ровно вставлял данные не туда.

Кому интересно, то может сам попробовать. Скачав пункты вредности 29 приказа (медицинские осмотры). Табличка не простая. И со своим замутом - есть пункты вредности где не прописаны врачи и процедур, что означает что это нужно протянуть до следующего пункта, где будет эта информация.

Ответить

Комментарий удалён модератором

Red Lable

4o1 не умеет работать с файлами, потому не гони

Roman Ivanov

Заявления о том, что GPT-o1 обладает интеллектом уровня доктора наук и превосходит GPT-4 по всем параметрам, вызывают большие сомнения.

Уравновешенный Ганс

в чем то превосходит, в чем то нет, что касается логических задач то конечно превосходит, но если речь идет о каких то литературных текстах то лучше конечно использовать GPT-4

Илларион Колесников

Все вообще должно вызывать сомнения.

Желтый заголовок. o1 не является моделью gpt-5.

Подробный обзор GPT-o1 (GPT5) от OpenAI

Расширенные возможности рассуждения

Безопасность

Целевые приложения

Варианты модели (o1-mini и o1-preview)

Доступность

Обучение с подкреплением в основе

Основные вехи

Как используется цепочка мыслей в GPT-o1?