Наконец-то представлена модель o1 от OpenAI - модель, которая много думает, прежде чем ответить. Возможности модели, как получить доступ, как пользоваться и как правильно писать промпты
Как работает рассуждение?
Подобно тому, как люди размышляют, прежде чем ответить на сложный вопрос, o1 использует цепочку мыслей, пытаясь решить проблему.
Она учится признавать и исправлять свои ошибки. Она учится разбивать сложные действия на более простые. Она учится пробовать другой подход, когда текущий не работает.
Ключевой момент заключается в том, что рассуждения позволяют модели рассмотреть несколько подходов, прежде чем дать окончательный ответ.
Вот процесс:
- Генерация токенов рассуждений
- Создание видимых маркеров завершения в качестве ответа
- Отбрасывание токенов рассуждений из контекста
Отбрасывание жетонов рассуждений позволяет сосредоточить внимание на важной информации.
Примечание: Хотя токены рассуждений не видны через API, они все равно занимают место в контекстном окне модели и считаются выходными токенами.
Этот подход может быть медленным, но, по словам старшего исследователя NVIDIA Джима Фана (Jim Fan), мы наконец-то видим, как парадигма масштабирования по времени вывода становится популярной и применяется в производстве.
Джим приводит несколько отличных аргументов:
- Вам не нужна огромная модель для рассуждений. Множество параметров посвящено запоминанию фактов, чтобы показывать хорошие результаты в бенчмарках вроде trivia QA. Можно вычленить рассуждения из знаний, т. е. создать небольшое «рассуждающее ядро», которое знает, как вызывать такие инструменты, как браузер и верификатор кода. Вычисления перед обучением могут быть уменьшены.
- Огромное количество вычислений переносится на обслуживание выводов вместо предварительного и последующего обучения. LLM - это текстовые симуляторы. Если в симуляторе проработать множество возможных стратегий и сценариев, модель в конце концов придет к хорошим решениям. Этот процесс представляет собой хорошо изученную проблему, как, например, поиск дерева Монте-Карло (MCTS) в AlphaGo.
Как o1 по сравнению с GPT-4o?
Чтобы проверить, насколько модели o1 превосходят GPT-4o, OpenAI провела ряд различных человеческих экзаменов и ML-экспертиз.
На графике выше видно, что o1 значительно превосходит GPT-4o в сложных тестах на логику, включающих вопросы по математике, программированию и науке.
Оценивая недавно выпущенные OpenAI модели o1, OpenAI обнаружила, что они превосходят людей в эталоне GPQA-diamond - сложном тесте на интеллект, который оценивает знания в области химии, физики и биологии.
Чтобы сравнить производительность модели с человеческими показателями, OpenAI сотрудничал с экспертами, имеющими докторскую степень, которые отвечали на те же вопросы GPQA-diamond.
Примечательно, что o1 превзошла этих экспертов-людей, став первой моделью, которой удалось это сделать в данном бенчмарке. Хотя это не означает, что o1 превосходит доктора философии по всем параметрам, но это говорит о том, что модель лучше решает определенные задачи, которые должен решать доктор философии.
Подробнее о техническом отчете о моделях o1 можно прочитать здесь.
Теперь, чтобы посмотреть, насколько хорошо работает o1 по сравнению с предыдущей моделью, GPT-4o, давайте рассмотрим классическую задачу: подсчет количества букв «r» в слове «strawberry».
Промпт: How many ‘r’ letter are in the word strawberry?
- o1 потратил на решение 33 секунды и 296 токенов, ответив правильно.
- GPT-4o потратил меньше секунды, израсходовал 39 токенов, но не справился с заданием.
Давайте попробуем еще один вариант. На этот раз мы попросим обе модели составить список стран, в названиях которых на английском языке буква «А» стоит на третьей позиции.
Промпт: Give me 5 countries with letter A in the third position in the name
И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.
o1 не совершенна
Даже Сэм Альтман признал, что o1 все еще несовершенна и ограничена. При первом использовании она может показаться более впечатляющей, чем после того, как вы поработаете с ней больше времени.
Иногда она все же допускает ошибки - даже в таких простых вопросах, как вопрос о том, сколько букв «r» в ответе.
Следует также отметить, что модели o1 - значительно продвинулись в рассуждениях, но не предназначены для замены GPT-4o во всех случаях использования.
Для приложений, в которых требуется ввод изображений, вызов функций или стабильно быстрое время отклика, по-прежнему правильным выбором будут модели GPT-4o и GPT-4o mini.
Для разработчиков здесь приведены некоторые параметры API завершения чата o1, которые пока недоступны:
- Модальности: только текст, изображения не поддерживаются.
- Типы сообщений: только сообщения пользователя и ассистента, системные сообщения не поддерживаются.
- Потоковая передача: не поддерживается.
- Инструменты: инструменты, вызов функций и параметры формата ответа не поддерживаются.
- Логпробы: не поддерживаются.
- Прочее: temperature, top_p и n фиксированы на 1, а presence_penalty и frequency_penalty фиксированы на 0.
- Assistants и Batch: эти модели не поддерживаются в Assistants API и Batch API.
Как получить доступ к модели o1 и попробовать ее?
Сегодня o1 появилась в ChatGPT для всех пользователей Plus и Team, а также в API для разработчиков пятого уровня.
Если вы являетесь бесплатным пользователем ChatGPT, OpenAI упомянул, что планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но конкретных сроков не назвал.
o1 также доступен в OpenAI Playground. Просто зайдите на https://platform.openai.com/ и на вкладке Playground выберите модель «o1-mini» или «o1-preview».
Также есть API-модели «o1-mini-2024-09-12» и «o1-preview-2024-09-12», которые уже доступны разработчикам.
Советы по написанию промптов для моделей o1
Если вы привыкли к обычным промптам для таких моделей, как Claude 3.5 Sonnet, Gemini Pro или GPT-4o, то промпты для моделей o1 отличаются.
Модели o1 лучше всего работают с простыми промптами. Некоторые методы разработки промптов, например, указание модели «думать шаг за шагом», могут не улучшить производительность, а иногда и помешать ей.
Вот некоторые актуальные способы:
- Промпты должны быть простыми и понятными: модели отлично понимают и отвечают на краткие и четкие инструкции, не требуя подробных указаний.
- Избегайте промптов с цепочкой мыслей: Поскольку эти модели рассуждают внутренне, промпт «продумать шаг за шагом» или «объяснить свои рассуждения» не нужен.
- Используйте разделители для ясности: Используйте разделители, такие как тройные кавычки, XML-теги или названия разделов, чтобы четко обозначить отдельные части входных данных, помогая модели правильно интерпретировать различные разделы.
- Ограничьте дополнительный контекст в генерации с расширенным поиском (RAG): Предоставляя дополнительный контекст или документы, включайте только самую важную информацию, чтобы модель не усложняла свой ответ.
Итак, o1 впечатляет, когда речь заходит о решении проблем с помощью чата и создании контента. Но знаете, что меня больше всего радует? Его интеграция в такие помощники программиста, как Cursor AI.
Я уже видел людей, которые вводили свои API-ключи в Cursor и использовали o1 для написания кода за них. Я еще не пробовал, но мне не терпится попробовать.
Судя по моим первым тестам, способность o1 думать, планировать и выполнять зашкаливает. По сути, мы наблюдаем переломный момент ChatGPT для систем агентного кодирования. Последствия его новых возможностей огромны.
Я искренне верю, что волна совершенно новых продуктов, которые будут созданы с его помощью, не будет похожа ни на что, что мы когда-либо видели. Новые возможности в мире разработки программного обеспечения просто захватывают, и мне не терпится увидеть, как o1 изменит способ написания кода и создания приложений в ближайшие недели.
🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!
Источник статьи на английском - здесь
И снова o1 ответил правильно, несмотря на то, что на «обдумывание» ушло больше времени, чем у GPT-4o.А чё? Japan это правильно по вашему? Третья буква А?
Павел, а вот и поймали ). Да, косяки присутствуют в новой модели, хоть и долго думает
М-да, модель лажанула даже в относительно простом задании.
Судя по всему, многим прогерам скоро придется переучиваться на другие специальности )
Будем писать правильные промпты. Не программист вряд ли их напишет
ахахах да ладно вам) код все равно нужно будет проверять и редактировать ) необходимость в прогерах останется
Вполне возможно, особенно фрилансерам, которые делают мини-приложения