Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

После нескольких месяцев разговоров в социальных сетях и скрытия за кодовым названием «Project Strawberry», долгожданная новая языковая модель от OpenAI наконец-то появилась - она называется «o1».

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.

☝Это только часть функций, доступных в SYNTX!

🔥 При покупке подписки Elite, - анлим на генерации в Runway!

Немного непривычно, что они не назвали ее GPT-5 или GPT-4.1. Почему же они выбрали o1?

По словам OpenAI, улучшения в этих новых моделях настолько значительны, что они посчитали необходимым сбросить счетчик до 1:

Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.

Основная задача этих моделей - думать и рассуждать над сложными задачами и решать более трудные проблемы. Поэтому не стоит ожидать от них молниеносной работы; вместо этого они дают более качественные и логичные ответы, чем предыдущие модели.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Модели семейства o1 представлены в двух вариантах: o1-mini и o1-preview.

  • o1-preview. Это предварительная версия самой продвинутой и самой способной официальной модели o1, которая будет выпущена в будущем. o1 значительно продвинулась вперед в области ИИ-рассуждений.
  • o1-mini. Это более быстрая и дешевая рассуждающая модель, которая особенно эффективна при программировании. Будучи более компактной моделью, o1-mini на 80 % дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не обширных знаний о мире.

OpenAI подчеркивает, что эти новые модели обучаются с помощью обучения с подкреплением, чтобы выполнять сложные рассуждения. Но что именно подразумевается под рассуждениями в контексте LLM?

Как работает рассуждение?

Подобно тому, как люди размышляют, прежде чем ответить на сложный вопрос, o1 использует цепочку мыслей, пытаясь решить проблему.

Она учится признавать и исправлять свои ошибки. Она учится разбивать сложные действия на более простые. Она учится пробовать другой подход, когда текущий не работает.

Ключевой момент заключается в том, что рассуждения позволяют модели рассмотреть несколько подходов, прежде чем дать окончательный ответ.

Вот процесс:

  1. Генерация токенов рассуждений
  2. Создание видимых маркеров завершения в качестве ответа
  3. Отбрасывание токенов рассуждений из контекста

Отбрасывание жетонов рассуждений позволяет сосредоточить внимание на важной информации.

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Примечание: Хотя токены рассуждений не видны через API, они все равно занимают место в контекстном окне модели и считаются выходными токенами.

Этот подход может быть медленным, но, по словам старшего исследователя NVIDIA Джима Фана (Jim Fan), мы наконец-то видим, как парадигма масштабирования по времени вывода становится популярной и применяется в производстве.

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Джим приводит несколько отличных аргументов:

  • Вам не нужна огромная модель для рассуждений. Множество параметров посвящено запоминанию фактов, чтобы показывать хорошие результаты в бенчмарках вроде trivia QA. Можно вычленить рассуждения из знаний, т. е. создать небольшое «рассуждающее ядро», которое знает, как вызывать такие инструменты, как браузер и верификатор кода. Вычисления перед обучением могут быть уменьшены.
  • Огромное количество вычислений переносится на обслуживание выводов вместо предварительного и последующего обучения. LLM - это текстовые симуляторы. Если в симуляторе проработать множество возможных стратегий и сценариев, модель в конце концов придет к хорошим решениям. Этот процесс представляет собой хорошо изученную проблему, как, например, поиск дерева Монте-Карло (MCTS) в AlphaGo.

Как o1 по сравнению с GPT-4o?

Чтобы проверить, насколько модели o1 превосходят GPT-4o, OpenAI провела ряд различных человеческих экзаменов и ML-экспертиз.

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

На графике выше видно, что o1 значительно превосходит GPT-4o в сложных тестах на логику, включающих вопросы по математике, программированию и науке.

Оценивая недавно выпущенные OpenAI модели o1, OpenAI обнаружила, что они превосходят людей в эталоне GPQA-diamond - сложном тесте на интеллект, который оценивает знания в области химии, физики и биологии.

Чтобы сравнить производительность модели с человеческими показателями, OpenAI сотрудничал с экспертами, имеющими докторскую степень, которые отвечали на те же вопросы GPQA-diamond.

Примечательно, что o1 превзошла этих экспертов-людей, став первой моделью, которой удалось это сделать в данном бенчмарке. Хотя это не означает, что o1 превосходит доктора философии по всем параметрам, но это говорит о том, что модель лучше решает определенные задачи, которые должен решать доктор философии.

Подробнее о техническом отчете о моделях o1 можно прочитать здесь.

Теперь, чтобы посмотреть, насколько хорошо работает o1 по сравнению с предыдущей моделью, GPT-4o, давайте рассмотрим классическую задачу: подсчет количества букв «r» в слове «strawberry».

Промпт: How many ‘r’ letter are in the word strawberry?

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты
  • o1 потратил на решение 33 секунды и 296 токенов, ответив правильно.
  • GPT-4o потратил меньше секунды, израсходовал 39 токенов, но не справился с заданием.

Давайте попробуем еще один вариант. На этот раз мы попросим обе модели составить список стран, в названиях которых на английском языке буква «А» стоит на третьей позиции.

Промпт: Give me 5 countries with letter A in the third position in the name

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.

o1 не совершенна

Даже Сэм Альтман признал, что o1 все еще несовершенна и ограничена. При первом использовании она может показаться более впечатляющей, чем после того, как вы поработаете с ней больше времени.

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Иногда она все же допускает ошибки - даже в таких простых вопросах, как вопрос о том, сколько букв «r» в ответе.

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Следует также отметить, что модели o1 - значительно продвинулись в рассуждениях, но не предназначены для замены GPT-4o во всех случаях использования.

Для приложений, в которых требуется ввод изображений, вызов функций или стабильно быстрое время отклика, по-прежнему правильным выбором будут модели GPT-4o и GPT-4o mini.

Для разработчиков здесь приведены некоторые параметры API завершения чата o1, которые пока недоступны:

  • Модальности: только текст, изображения не поддерживаются.
  • Типы сообщений: только сообщения пользователя и ассистента, системные сообщения не поддерживаются.
  • Потоковая передача: не поддерживается.
  • Инструменты: инструменты, вызов функций и параметры формата ответа не поддерживаются.
  • Логпробы: не поддерживаются.
  • Прочее: temperature, top_p и n фиксированы на 1, а presence_penalty и frequency_penalty фиксированы на 0.
  • Assistants и Batch: эти модели не поддерживаются в Assistants API и Batch API.

Как получить доступ к модели o1 и попробовать ее?

Сегодня o1 появилась в ChatGPT для всех пользователей Plus и Team, а также в API для разработчиков пятого уровня.

Если вы являетесь бесплатным пользователем ChatGPT, OpenAI упомянул, что планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но конкретных сроков не назвал.

o1 также доступен в OpenAI Playground. Просто зайдите на https://platform.openai.com/ и на вкладке Playground выберите модель «o1-mini» или «o1-preview».

Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты

Также есть API-модели «o1-mini-2024-09-12» и «o1-preview-2024-09-12», которые уже доступны разработчикам.

Советы по написанию промптов для моделей o1

Если вы привыкли к обычным промптам для таких моделей, как Claude 3.5 Sonnet, Gemini Pro или GPT-4o, то промпты для моделей o1 отличаются.

Модели o1 лучше всего работают с простыми промптами. Некоторые методы разработки промптов, например, указание модели «думать шаг за шагом», могут не улучшить производительность, а иногда и помешать ей.

Вот некоторые актуальные способы:

  • Промпты должны быть простыми и понятными: модели отлично понимают и отвечают на краткие и четкие инструкции, не требуя подробных указаний.
  • Избегайте промптов с цепочкой мыслей: Поскольку эти модели рассуждают внутренне, промпт «продумать шаг за шагом» или «объяснить свои рассуждения» не нужен.
  • Используйте разделители для ясности: Используйте разделители, такие как тройные кавычки, XML-теги или названия разделов, чтобы четко обозначить отдельные части входных данных, помогая модели правильно интерпретировать различные разделы.
  • Ограничьте дополнительный контекст в генерации с расширенным поиском (RAG): Предоставляя дополнительный контекст или документы, включайте только самую важную информацию, чтобы модель не усложняла свой ответ.

Итак, o1 впечатляет, когда речь заходит о решении проблем с помощью чата и создании контента. Но знаете, что меня больше всего радует? Его интеграция в такие помощники программиста, как Cursor AI.

Я уже видел людей, которые вводили свои API-ключи в Cursor и использовали o1 для написания кода за них. Я еще не пробовал, но мне не терпится попробовать.

Судя по моим первым тестам, способность o1 думать, планировать и выполнять зашкаливает. По сути, мы наблюдаем переломный момент ChatGPT для систем агентного кодирования. Последствия его новых возможностей огромны.

Я искренне верю, что волна совершенно новых продуктов, которые будут созданы с его помощью, не будет похожа ни на что, что мы когда-либо видели. Новые возможности в мире разработки программного обеспечения просто захватывают, и мне не терпится увидеть, как o1 изменит способ написания кода и создания приложений в ближайшие недели.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.

☝Это только часть функций, доступных в SYNTX!

🔥 При покупке подписки Elite, - анлим на генерации в Runway!

Источник статьи на английском - здесь

3838
33
33
11
140 комментариев

И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.А чё? Japan это правильно по вашему? Третья буква А?

1
1
Ответить

Павел, а вот и поймали ). Да, косяки присутствуют в новой модели, хоть и долго думает

1
Ответить

М-да, модель лажанула даже в относительно простом задании.

1
Ответить

Судя по всему, многим прогерам скоро придется переучиваться на другие специальности )

1
Ответить

Будем писать правильные промпты. Не программист вряд ли их напишет

1
Ответить

ахахах да ладно вам) код все равно нужно будет проверять и редактировать ) необходимость в прогерах останется

1
Ответить

Вполне возможно, особенно фрилансерам, которые делают мини-приложения

Ответить