o3 от OpenAI: знакомимся с моделью, которая может брать за одну задачу до 20 долларов

Что происходит?

Представьте, что у вас на работе появляется сверхумная ИИ-машина, которая не спрашивает про зарплату, не просит праздничных выходных, но… готова съедать до 20 долларов за каждую решённую задачу. «Да кто согласится на такое?» — скажете вы. А вот OpenAI на полном серьёзе заявляет, что их свежевыпеченная модель o3 действительно стоит того.

o3 от OpenAI: знакомимся с моделью, которая может брать за одну задачу до 20 долларов

Сверхточные результаты. Модель o3 набирает рекордные 96,7% в сложных математических тестах (AIME), 87,7% в научных (GPQA Diamond) и вплотную приближается к «человеческому уровню» в задаче ARC-AGI. Прямо-таки чемпион, хоть на Олимпиаду отправляй.
«Приватная цепочка размышлений». Звучит, будто у ИИ появился собственный внутренний голос. Он действительно «раздумывает», прежде чем выдать ответ, и разбивает задачу на логические блоки. Можете представить, как на совещании этот ИИ-коллега тихонько бормочет под нос все аргументы, а потом неожиданно выдаёт готовое решение.
o3-mini: младший брат с большими амбициями.Если вам жалко выкладывать по 20 долларов за задачу, то есть облегчённая версия — o3-mini. Она быстрее, дешевле, поддерживает несколько режимов времени на размышление и умеет весьма неплохо решать задачи, хоть и не всегда дотягивает до старшего собрата.
Стоимость и ресурсы. По словам разработчиков, на некоторых наборах задач (например, полу-приватном ARC-AGI) o3 можно «урезать» до бюджета в $10 000 и всё ещё получать 75,7% точности. Но если хочется максимально возможных 87,5%, придётся увеличить вычислительные мощности аж в 172 раза. А это — дополнительные расходы, счета за облачный сервис и прочие радости жизни.

Выдающаяся точность: когда цена ошибки высока, заплатить 20 долларов за задачу может быть выгоднее, чем полагаться на человека, который в пятницу вечером уже мысленно не здесь.
Умение «думать»: модель реально способна обосновать ход своих мыслей — бесценно для научных исследований и сложных вычислений.
Экономия времени: за то время, пока обычный специалист бьётся над задачей, o3 может прорешать весь набор тестов, если, конечно, у вас есть бюджет на её «прожорливые» вычислительные запросы.

Финансовая сторона: когда счётчик зашкаливает и за каждую задачу приходится выкладывать от $17 до $20, встаёт вопрос: «А не выгоднее ли нанять двух стажёров?»
Безопасность и ответственность: если модель накосячит, кому придётся платить за последствия? Модели? Разработчикам? Или владельцу, который решил сэкономить на тестировании?
Слабые места: даже при невероятных затратах, o3 всё ещё пасует примерно на 9% задач, лёгких для человека. Не натыкается ли она на неожиданные подвохи, которые любой школьник решит с листа?

Оптимизировать бюджеты. Прежде чем с головой кидаться в о3 и приговаривать «бюджет безлимитный!», подумайте, какие задачи действительно требуют сверхточного ИИ, а какие можно поручить более дешёвому (или старому доброму живому) исполнителю.
Тестирование и валидация. Планируется крупное публичное тестирование безопасности. Если вы давно хотели «поиграть» с крутым ИИ, дерзайте — заявка принимается до января 2025 года!
Сочетать человека и ИИ. Связка «эксперт+o3» может оказаться мощнее, чем любой один из них по отдельности. Человек предлагает творческий подход, а ИИ — сверхбыструю и точную обработку данных.

Итак, мы имеем o3: модель, которая блестяще решает задачи, но способна пробить брешь даже в самом упитанном бюджете. Да, её результаты заставляют захлебнуться от восторга, но пока это всё похоже на дорогую спортивную машину — очень эффектно и быстро, но на заправке вы можете распрощаться с половиной месячной зарплаты.

Насколько это выгодно и нужно вашему бизнесу или исследованию — вопрос открытый. Одно ясно точно: гонка за настоящим искусственным общим интеллектом (AGI) продолжается, и o3 с «приватной цепочкой размышлений» — важный шаг. Но до того момента, когда все эти модели станут «доступны каждому в любой ситуации», ещё нужно пройти дорогу длиною в несколько бюджетных пересмотров.

Если вы читаете эту статью во время перерыва, самое время сказать боссу (или себе), что «это необходимая часть стратегического анализа рынка ИИ». Ведь о3 — не просто очередная нейросетка, а, возможно, будущая «золотая жила» для тех, кто знает, как правильно ею воспользоваться. Хотя и дороговата эта «жила», согласитесь!

Человеку приготовиться — @HumanReadyTech

Автор: Виталий, человек, который верит в светлое будущее сотрудничества с ИИ (и надеется, что ИИ это оценит)

#ЧеловекуПриготовиться #ИскусственныйИнтеллект #ИИ #БудущееРаботы #РаботаСИИ #Технологии #Бизнес #ЦифроваяТрансформация #ЧеловекоМашинноеСотрудничество #AI #TechTrends #o3 #o3Mini

o3 от OpenAI: знакомимся с моделью, которая может брать за одну задачу до 20 долларов

Технологическая начинка

Почему это якобы хорошо

Реальность, которую стоит обсудить

Что действительно стоит попробовать

Заключительная мысль

P.S.