o3 от OpenAI: знакомимся с моделью, которая может брать за одну задачу до 20 долларов

Что происходит?

Представьте, что у вас на работе появляется сверхумная ИИ-машина, которая не спрашивает про зарплату, не просит праздничных выходных, но… готова съедать до 20 долларов за каждую решённую задачу. «Да кто согласится на такое?» — скажете вы. А вот OpenAI на полном серьёзе заявляет, что их свежевыпеченная модель o3 действительно стоит того.

o3 от OpenAI: знакомимся с моделью, которая может брать за одну задачу до 20 долларов

Технологическая начинка

  • Сверхточные результаты. Модель o3 набирает рекордные 96,7% в сложных математических тестах (AIME), 87,7% в научных (GPQA Diamond) и вплотную приближается к «человеческому уровню» в задаче ARC-AGI. Прямо-таки чемпион, хоть на Олимпиаду отправляй.
  • «Приватная цепочка размышлений». Звучит, будто у ИИ появился собственный внутренний голос. Он действительно «раздумывает», прежде чем выдать ответ, и разбивает задачу на логические блоки. Можете представить, как на совещании этот ИИ-коллега тихонько бормочет под нос все аргументы, а потом неожиданно выдаёт готовое решение.
  • o3-mini: младший брат с большими амбициями.Если вам жалко выкладывать по 20 долларов за задачу, то есть облегчённая версия — o3-mini. Она быстрее, дешевле, поддерживает несколько режимов времени на размышление и умеет весьма неплохо решать задачи, хоть и не всегда дотягивает до старшего собрата.
  • Стоимость и ресурсы. По словам разработчиков, на некоторых наборах задач (например, полу-приватном ARC-AGI) o3 можно «урезать» до бюджета в $10 000 и всё ещё получать 75,7% точности. Но если хочется максимально возможных 87,5%, придётся увеличить вычислительные мощности аж в 172 раза. А это — дополнительные расходы, счета за облачный сервис и прочие радости жизни.

Почему это якобы хорошо

  • Выдающаяся точность: когда цена ошибки высока, заплатить 20 долларов за задачу может быть выгоднее, чем полагаться на человека, который в пятницу вечером уже мысленно не здесь.
  • Умение «думать»: модель реально способна обосновать ход своих мыслей — бесценно для научных исследований и сложных вычислений.
  • Экономия времени: за то время, пока обычный специалист бьётся над задачей, o3 может прорешать весь набор тестов, если, конечно, у вас есть бюджет на её «прожорливые» вычислительные запросы.

Реальность, которую стоит обсудить

  • Финансовая сторона: когда счётчик зашкаливает и за каждую задачу приходится выкладывать от $17 до $20, встаёт вопрос: «А не выгоднее ли нанять двух стажёров?»
  • Безопасность и ответственность: если модель накосячит, кому придётся платить за последствия? Модели? Разработчикам? Или владельцу, который решил сэкономить на тестировании?
  • Слабые места: даже при невероятных затратах, o3 всё ещё пасует примерно на 9% задач, лёгких для человека. Не натыкается ли она на неожиданные подвохи, которые любой школьник решит с листа?

Что действительно стоит попробовать

  • Оптимизировать бюджеты. Прежде чем с головой кидаться в о3 и приговаривать «бюджет безлимитный!», подумайте, какие задачи действительно требуют сверхточного ИИ, а какие можно поручить более дешёвому (или старому доброму живому) исполнителю.
  • Тестирование и валидация. Планируется крупное публичное тестирование безопасности. Если вы давно хотели «поиграть» с крутым ИИ, дерзайте — заявка принимается до января 2025 года!
  • Сочетать человека и ИИ. Связка «эксперт+o3» может оказаться мощнее, чем любой один из них по отдельности. Человек предлагает творческий подход, а ИИ — сверхбыструю и точную обработку данных.

Заключительная мысль

Итак, мы имеем o3: модель, которая блестяще решает задачи, но способна пробить брешь даже в самом упитанном бюджете. Да, её результаты заставляют захлебнуться от восторга, но пока это всё похоже на дорогую спортивную машину — очень эффектно и быстро, но на заправке вы можете распрощаться с половиной месячной зарплаты.

Насколько это выгодно и нужно вашему бизнесу или исследованию — вопрос открытый. Одно ясно точно: гонка за настоящим искусственным общим интеллектом (AGI) продолжается, и o3 с «приватной цепочкой размышлений» — важный шаг. Но до того момента, когда все эти модели станут «доступны каждому в любой ситуации», ещё нужно пройти дорогу длиною в несколько бюджетных пересмотров.

P.S.

Если вы читаете эту статью во время перерыва, самое время сказать боссу (или себе), что «это необходимая часть стратегического анализа рынка ИИ». Ведь о3 — не просто очередная нейросетка, а, возможно, будущая «золотая жила» для тех, кто знает, как правильно ею воспользоваться. Хотя и дороговата эта «жила», согласитесь!

Человеку приготовиться — @HumanReadyTech

Автор: Виталий, человек, который верит в светлое будущее сотрудничества с ИИ (и надеется, что ИИ это оценит)

11
10 комментариев

Аппетитны растут, надеюсь иск у Маска и других выгорит, создавали как не коммерческую организацию а теперь хоть карманы набить так чтобы штаны лопнули.

К сожалению или к счастью не в аппетите дело, а в потребностях вычислительной мощности( Чтобы достигнуть уровня такого нужно прям разгонять машину прилично

2

Если задача - запилить полностью лендос с установкой на сервак - вай нот?

На практике чаще задача не "запилить полностью", а "допилить существующий". Для этого нужно чтобы нейросетка могла не просто генерировать что-то, а делать итерации "сгенерировал — запустил — скорректировал — запустил — ...".

1

Для этого можно и модель по проще юзать. Тут речь о приближении к Agi и для этого требуется много мощностей чтобы параметры вычисления были высокими. Это скорее для науки нужно.

Автор Виталий не шарит в теме, тупо копираста откуда то, но это не мешает ему двигать тему!

Уже взял пирожок с полки для тех кто шарит? Если нет т поторопись))