Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доуступ, как пользоваться и как правильно писать промпты

После нескольких месяцев разговоров в социальных сетях и скрытия за кодовым названием «Project Strawberry», долгожданная новая языковая модель от OpenAI наконец-то появилась - она называется «o1».

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!

Немного непривычно, что они не назвали ее GPT-5 или GPT-4.1. Почему же они выбрали o1?

По словам OpenAI, улучшения в этих новых моделях настолько значительны, что они посчитали необходимым сбросить счетчик до 1:

Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.

Основная задача этих моделей - думать и рассуждать над сложными задачами и решать более трудные проблемы. Поэтому не стоит ожидать от них молниеносной работы; вместо этого они дают более качественные и логичные ответы, чем предыдущие модели.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Модели семейства o1 представлены в двух вариантах: o1-mini и o1-preview.

o1-preview. Это предварительная версия самой продвинутой и самой способной официальной модели o1, которая будет выпущена в будущем. o1 значительно продвинулась вперед в области ИИ-рассуждений.
o1-mini. Это более быстрая и дешевая рассуждающая модель, которая особенно эффективна при программировании. Будучи более компактной моделью, o1-mini на 80 % дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не обширных знаний о мире.

OpenAI подчеркивает, что эти новые модели обучаются с помощью обучения с подкреплением, чтобы выполнять сложные рассуждения. Но что именно подразумевается под рассуждениями в контексте LLM?

NeuroЭнтузиаст (Алексей)

ChatGPT вчера

Как попробовать новые модели ChatGPT o1 в Телеграм бесплатно, если у вас нет платного аккаунта Openai. Мини-тест возможностей новых моделей в боте

OpenAI представила новую серию моделей o1, которые значительно превосходят GPT-4о в сложных задачах. Модель o1, например, набрала 83% на Международной математической олимпиаде и достигла 89-го процентиля* на соревнованиях по программированию (GPT-4o набрала всего 11%). 🧮

Подобно тому, как люди размышляют, прежде чем ответить на сложный вопрос, o1 использует цепочку мыслей, пытаясь решить проблему.

Она учится признавать и исправлять свои ошибки. Она учится разбивать сложные действия на более простые. Она учится пробовать другой подход, когда текущий не работает.

Ключевой момент заключается в том, что рассуждения позволяют модели рассмотреть несколько подходов, прежде чем дать окончательный ответ.

Вот процесс:

Генерация токенов рассуждений
Создание видимых маркеров завершения в качестве ответа
Отбрасывание токенов рассуждений из контекста

Отбрасывание жетонов рассуждений позволяет сосредоточить внимание на важной информации.

Примечание: Хотя токены рассуждений не видны через API, они все равно занимают место в контекстном окне модели и считаются выходными токенами.

Этот подход может быть медленным, но, по словам старшего исследователя NVIDIA Джима Фана (Jim Fan), мы наконец-то видим, как парадигма масштабирования по времени вывода становится популярной и применяется в производстве.

Джим приводит несколько отличных аргументов:

Вам не нужна огромная модель для рассуждений. Множество параметров посвящено запоминанию фактов, чтобы показывать хорошие результаты в бенчмарках вроде trivia QA. Можно вычленить рассуждения из знаний, т. е. создать небольшое «рассуждающее ядро», которое знает, как вызывать такие инструменты, как браузер и верификатор кода. Вычисления перед обучением могут быть уменьшены.
Огромное количество вычислений переносится на обслуживание выводов вместо предварительного и последующего обучения. LLM - это текстовые симуляторы. Если в симуляторе проработать множество возможных стратегий и сценариев, модель в конце концов придет к хорошим решениям. Этот процесс представляет собой хорошо изученную проблему, как, например, поиск дерева Монте-Карло (MCTS) в AlphaGo.

Чтобы проверить, насколько модели o1 превосходят GPT-4o, OpenAI провела ряд различных человеческих экзаменов и ML-экспертиз.

На графике выше видно, что o1 значительно превосходит GPT-4o в сложных тестах на логику, включающих вопросы по математике, программированию и науке.

Оценивая недавно выпущенные OpenAI модели o1, OpenAI обнаружила, что они превосходят людей в эталоне GPQA-diamond - сложном тесте на интеллект, который оценивает знания в области химии, физики и биологии.

Чтобы сравнить производительность модели с человеческими показателями, OpenAI сотрудничал с экспертами, имеющими докторскую степень, которые отвечали на те же вопросы GPQA-diamond.

Примечательно, что o1 превзошла этих экспертов-людей, став первой моделью, которой удалось это сделать в данном бенчмарке. Хотя это не означает, что o1 превосходит доктора философии по всем параметрам, но это говорит о том, что модель лучше решает определенные задачи, которые должен решать доктор философии.

Подробнее о техническом отчете о моделях o1 можно прочитать здесь.

Теперь, чтобы посмотреть, насколько хорошо работает o1 по сравнению с предыдущей моделью, GPT-4o, давайте рассмотрим классическую задачу: подсчет количества букв «r» в слове «strawberry».

Промпт: How many ‘r’ letter are in the word strawberry?

o1 потратил на решение 33 секунды и 296 токенов, ответив правильно.
GPT-4o потратил меньше секунды, израсходовал 39 токенов, но не справился с заданием.

Давайте попробуем еще один вариант. На этот раз мы попросим обе модели составить список стран, в названиях которых на английском языке буква «А» стоит на третьей позиции.

Промпт: Give me 5 countries with letter A in the third position in the name

И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.

Даже Сэм Альтман признал, что o1 все еще несовершенна и ограничена. При первом использовании она может показаться более впечатляющей, чем после того, как вы поработаете с ней больше времени.

Иногда она все же допускает ошибки - даже в таких простых вопросах, как вопрос о том, сколько букв «r» в ответе.

Следует также отметить, что модели o1 - значительно продвинулись в рассуждениях, но не предназначены для замены GPT-4o во всех случаях использования.

Для приложений, в которых требуется ввод изображений, вызов функций или стабильно быстрое время отклика, по-прежнему правильным выбором будут модели GPT-4o и GPT-4o mini.

Для разработчиков здесь приведены некоторые параметры API завершения чата o1, которые пока недоступны:

Модальности: только текст, изображения не поддерживаются.
Типы сообщений: только сообщения пользователя и ассистента, системные сообщения не поддерживаются.
Потоковая передача: не поддерживается.
Инструменты: инструменты, вызов функций и параметры формата ответа не поддерживаются.
Логпробы: не поддерживаются.
Прочее: temperature, top_p и n фиксированы на 1, а presence_penalty и frequency_penalty фиксированы на 0.
Assistants и Batch: эти модели не поддерживаются в Assistants API и Batch API.

Сегодня o1 появилась в ChatGPT для всех пользователей Plus и Team, а также в API для разработчиков пятого уровня.

Если вы являетесь бесплатным пользователем ChatGPT, OpenAI упомянул, что планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но конкретных сроков не назвал.

o1 также доступен в OpenAI Playground. Просто зайдите на https://platform.openai.com/ и на вкладке Playground выберите модель «o1-mini» или «o1-preview».

Также есть API-модели «o1-mini-2024-09-12» и «o1-preview-2024-09-12», которые уже доступны разработчикам.

Если вы привыкли к обычным промптам для таких моделей, как Claude 3.5 Sonnet, Gemini Pro или GPT-4o, то промпты для моделей o1 отличаются.

Модели o1 лучше всего работают с простыми промптами. Некоторые методы разработки промптов, например, указание модели «думать шаг за шагом», могут не улучшить производительность, а иногда и помешать ей.

Вот некоторые актуальные способы:

Промпты должны быть простыми и понятными: модели отлично понимают и отвечают на краткие и четкие инструкции, не требуя подробных указаний.
Избегайте промптов с цепочкой мыслей: Поскольку эти модели рассуждают внутренне, промпт «продумать шаг за шагом» или «объяснить свои рассуждения» не нужен.
Используйте разделители для ясности: Используйте разделители, такие как тройные кавычки, XML-теги или названия разделов, чтобы четко обозначить отдельные части входных данных, помогая модели правильно интерпретировать различные разделы.
Ограничьте дополнительный контекст в генерации с расширенным поиском (RAG): Предоставляя дополнительный контекст или документы, включайте только самую важную информацию, чтобы модель не усложняла свой ответ.

Итак, o1 впечатляет, когда речь заходит о решении проблем с помощью чата и создании контента. Но знаете, что меня больше всего радует? Его интеграция в такие помощники программиста, как Cursor AI.

Я уже видел людей, которые вводили свои API-ключи в Cursor и использовали o1 для написания кода за них. Я еще не пробовал, но мне не терпится попробовать.

Судя по моим первым тестам, способность o1 думать, планировать и выполнять зашкаливает. По сути, мы наблюдаем переломный момент ChatGPT для систем агентного кодирования. Последствия его новых возможностей огромны.

Я искренне верю, что волна совершенно новых продуктов, которые будут созданы с его помощью, не будет похожа ни на что, что мы когда-либо видели. Новые возможности в мире разработки программного обеспечения просто захватывают, и мне не терпится увидеть, как o1 изменит способ написания кода и создания приложений в ближайшие недели.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!

#chatgpt #chatgpto1

Источник статьи на английском - здесь

142 комментария

Павел Данилов

вчера

И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.А чё? Japan это правильно по вашему? Третья буква А?