ChatGPT o1: что умеет новая модель нейросети от OpenAI

Новая версия решает сложные задачи и меньше галлюцинирует.

o1 для ChatGPT: что умеет нейросеть, которая «думает почти как человек»

12 сентября Open AI представила новые языковые модели ChatGPT — o1-preview и o1-mini. По словам разработчиков, они «думают почти как человек» и лучше справляются со сложными задачами — кодингом, решением уравнений — в отличие от предыдущих версий.

У профессионального сообщества есть своё мнение на этот счёт, но обо всём по порядку.

Содержание

Что такое ChatGPT и языковые модели
В чём отличие o1 от предыдущих моделей
o1 хорошо справляется со сложными задачами?
Как составлять промпты для о1
Сколько стоит
Коротко о главном

ChatGPT — это нейросеть, которая генерирует тексты и решает разные задачи: от вычислений до поиска ошибок в коде. Чтобы ИИ создал контент, нужно написать задание в чат-боте — составить промпт (запрос). Например, «создай инструкцию по ремонту холодильника».

Внизу — специальная строка, где пользователь пишет промпт. Источник: ChatGPT

У ChatGPT есть несколько языковых моделей, основная функция которых — «предсказывать», каким будет следующее слово в ответе на промпт. Проще говоря, с их помощью нейросеть и генерирует ответы. Новинки o1-preview и o1-mini — это тоже языковые модели.

Главное — o1 лучше справляются с задачами, которые требуют точных знаний и вычислений. Но они работают в тестовом режиме и пока отстают от предыдущей модели, GPT-4o, в остальном — например, они не умеют искать информацию в интернете. Ещё пользователь не может загружать картинки и текстовые документы, то есть добавить условную Excel-таблицу и попросить нейросеть составить отчёт на её основе нельзя.

Ограничения моделей o1 в период тестирования. Источник: OpenAI

o1-preview — ранняя версия модели o1, «заточенная» под работу со сложными заданиями.
o1-mini — «думает» быстрее и подходит для решения более простых задач из областей науки, программирования и математики.

Выходит, большую пользу o1-preview и o1-mini принесут тем, кто использует ChatGPT для научных целей, решения уравнений, написания кода и так далее. Например физики, специализирующиеся в квантовой оптике, могут создавать сложные математические формулы. А вот для всего остального разработчики рекомендуют использовать GPT-4o.

UPD: В декабре 2024 года OpenAI выпустила полную версию модели o1 — o1 pro. Теперь чат-бот умеет обрабатывать большие массивы данных, решает сложные задачи программирования. Подписка ChatGPT Pro стоит $200 в месяц.

Особенности моделей o1

Думают почти как люди
Новые модели решают задачи самостоятельно, в то время как их предшественники опираются на информацию в интернете и действуют шаблонно. Руководитель исследований в Open AI Джерри Творек пояснил, что o1-preview и o1-mini обучались по новому, оптимизированному алгоритму — системе со штрафами и вознаграждениями. Более детальных пояснений Творек не даёт.

В Open AI заявляют: «o1 думает перед тем, как говорит». После получения промпта она составляет «цепочку мыслей» — обдумывает задачу поэтапно, как человек. Поэтому на генерацию ответа может уходить до минуты. Это дольше, чем у предыдущих, более «импульсивных» моделей ChatGPT, которые сразу выдавали ответы и, как результат, чаще совершали ошибки.

Меньше галлюцинируют
Галлюцинацией называют феномен, когда ИИ искажает факты или генерирует ответ, не соответствующий промпту. Например, если нейросеть создаёт лишнего персонажа на картинке или пишет статью на основе выдуманных фактов.

Творек рассказывает, что ChatGPT стал меньше ошибаться, но исключить галлюцинации полностью разработчикам пока не удалось.

Поясняют свой ответ
Теперь бот поясняет, почему пришёл к тому или иному выводу. К слову, похожим образом устроен главный конкурент ChatGPT — Claude.
Например, один из пользователей подкинул ИИ загадку «У меня 4 коровы и 2 кошки. Сколько у меня ног?» — и получил ответ с подробным объяснением от нейросети. Если вкратце: «Коровы и кошки добавлены, чтобы сбить с толку. Однако вопрос был конкретным — „Сколько у меня ног?“, поэтому мой ответ — у тебя две ноги».

Источник: androidauthority

Резюме: o1 — это не одноклассник Даня с пятёркой по литературе, а одноклассник Петя, у которого вы списывали математику. Петя, конечно, тоже пишет сочинения, но хуже Дани.

OpenAI протестировали o1 на квалификационном экзамене для Международной математической олимпиады — модель решила 83% задач. Вместе с тем предыдущая версия нейросети, GPT-4o, справилась только с 13%. Об этом рассказывает представитель OpenAI Боб МакГрю.

А вот профессор математики Калифорнийского университета Теренс Тао считает, что o1 всё равно испытывает сложности в решением трудных задач. По словам Тао, если старые модели ChatGPT — это некомпетентные аспиранты, то o1 — посредственный и чуть более компетентный аспирант.

Ещё минус — o1, как и предыдущие версии ChatGPT, даёт короткие ответы. Об этом говорит автор телеграм-канала о нейросетях «Миша, давай по новой». По его словам, ИИ нужно по-прежнему «пинать», чтобы раскрыть тему. То есть постоянно дорабатывать промпты, на что уходит время. Но есть и плюс — o1 хорошо структурирует информацию и генерирует планы для статей лучше, чем GPT4o.

Об этом наблюдении также рассказывает журналист Techcrunch, специализирующийся на ИИ. Он попросил нейросеть организовать день и получил план с детальными пояснениями (возможно, чересчур детальными, отмечает журналист). А ещё он спросил у нейросети, где найти кедр в Америке, — и получил ответ на 800 слов, с подробным описанием и научными названиями всех разновидностей. В общем, одна и та же особенность хороша для сложных задач, но чрезмерна для простых.

При этом научный сотрудник Meta Анджела Фан заявляет, что решать задачи — это не то же самое, что ассистировать, например, в решении домашних заданий. Анджела не поясняет, что имеет в виду, но оставляет достаточно простора для интерпретации.

На сайте OpenAI есть советы по написанию промптов. Разработчики советуют:

Писать коротко и ясно. Никаких длинных разъяснений. Также не стоит использовать метафоры или двусмысленные фразы: чем однозначнее запрос, тем лучше. Допустим, промпт может выглядеть так: «Найди ошибки логики во фрагменте кода на языке Python (и далее вставить нужный фрагмент)».
Не просить нейросеть составлять «цепочку мыслей». В чём суть: за годы обращений к ChatGPT пользователи заметили, что чат-бот выдаёт более релевантные результаты, если просить его в запросе «думать пошагово» или объяснять логику формирования ответа. Но делать этого теперь не нужно — новые модели мыслят так по умолчанию.
Использовать смысловые разбивки. То есть не писать промпт сплошным текстом, а разделять на части с законченными мыслями. Например, делать подзаголовки или использовать XML-теги.
Не перегружать избыточной информацией. В ChatGPT можно загрузить файл или просто расписать дополнительную информацию, о которой он не знает, чтобы получить нужный результат. Например, добавить PDF-файл с выручкой и попросить вставить эти данные в текст. Разработчики советуют включать при таких запросах только релевантную информацию, чтобы о1 не усложняла ответ. Но, видимо, это на будущее — ведь прикреплять медиафайлы пока нельзя.

Сейчас пользоваться o1 можно только платно. Позже модели будут доступны и в бесплатной версии — правда, неизвестно, когда именно.

Платные опции:

Подписка. Plus — за $⁣20 для обычных пользователей в месяц. Team — для корпоративных подписчиков за $⁣25 с человека в год или $⁣30 в месяц. Enterprise — для крупных международных компаний, цена по запросу. Оплата только картой зарубежного банка.

На сайте пишут, что в тарифе Free есть доступ к другим языковым моделям, в том числе к o1. Однако на третьем скрине видно, что пользователь может переключиться с ChatGPT на ChatGPT Plus.

Источник: OpenAI

API. В этом случае он платит только за факт использования чат-бота: сколько токенов потратил — столько и заплатил. Например, одно английское слово приравнивается к 1,3 токенам, а испанское — к 2. По словам разработчиков, 1000 токенов — это примерно 750 слов. Допустим, собрание сочинений Шекспира на английском — это 90 000 слов или 1,2 млн токенов.

Обычно API используют компании. Ниже для сравнения цены в токенах за o1 и GPT-4o. Как видно, новые модели — в разы дороже.

Источник: OpenAI

Но есть и «обходные пути» — о них пишут пользователи в интернете. Например, некоторые получают доступ к платным возможностям, используя расширения браузера или сторонние сервисы.

o1-preview и o1-mini — это новые языковые модели ChatGPT. По сравнению с предшественниками они лучше справляются со сложными задачами, например решением уравнений и написанием кода, — но уступают GPT-4o в генерации текстов.
При обработке промпта они берут время «на подумать». Как результат — ответы генерируется дольше, чем у предыдущих версий. Но зато нейросеть реже галлюцинирует и выдаёт более точные результаты. Опять-таки, это касается сложных задач, а не креативных текстов.
Разработчики рекомендуют писать ёмкие и понятные промпты, давать нейросети только релевантную информацию и не просить составлять «цепочку мыслей».
o1-preview и o1-mini работают в тестовой версии с ограничениями. Например, в отличие от GPT-4o, они не умеют искать информацию в интернете.
Пользоваться новыми моделями можно только на платных подписках и по API. Разработчики обещают, что эта опция появится и в бесплатной версии ChatGPT. Правда, не уточняют, когда.

4 комментария

Виктор Симонов

27 сент

На самом деле громко сказано, что почти как человек, все таки ИИ еще очень далеко до разума человека и мысли))

Ответить

PiFagor

Точно, 90%+ людей просто не умеют думать, выражать свои мысли и довольно глупы, куда уж тут нейросети до них...

Aleksey Tarasov

28 сент

Кодинг и математика очень регламентированны и алгоритмичны. Интсрукций по ним стотыщьмильенов в инете.
Я из професчиональной сферы химии. Так вот когда просишь предложить состав того или иного продукта. Выдает обощенную хурму из интернета. Мол для того, что-бы сделать водный раствор, вам нужна вода.

o1 для ChatGPT: что умеет нейросеть, которая «думает почти как человек»

Что такое ChatGPT и языковые модели

В чём отличие o1 от предыдущих моделей

Действительно ли o1 хорошо справляется со сложными задачами

Как составлять промпты для о1

Сколько стоит

Коротко о главном

А для каких задач вы используете ChatGPT? Может, уже успели протестировать o1?