OpenAI: GPT-5 и Claude Opus «приблизились» к уровню экспертов в прикладных задачах в финансах, маркетинге, медицине и других сферах

Компания протестировала модели на 1320 задачах 44 профессий.

Показатель в 50% исследователи считают уровнем опытного специалиста. Источник: OpenAI
Показатель в 50% исследователи считают уровнем опытного специалиста. Источник: OpenAI
  • OpenAI разработала набор тестов GDPval, который проверяет, насколько эффективны ИИ-модели в прикладных задачах. Она выбрала 44 профессии из «значимых» для ВВП США отраслей. Среди них — разработчики ПО, юристы, бухгалтеры, финансовые консультанты и аналитики, журналисты, работники службы поддержки, менеджеры по продажам и врачи.
Одна из задач в GDPval —  провести аудит строк с заказами, найти ошибки, из-за которых выставили неверные счета, исправить и составить отчёт. Источник: OpenAI
Одна из задач в GDPval —  провести аудит строк с заказами, найти ошибки, из-за которых выставили неверные счета, исправить и составить отчёт. Источник: OpenAI
  • Для каждой профессии составили по 30 «типичных» задач совместно со специалистами с опытом не менее 14 лет. Например, моделям нужно было написать юридическое заключение или составить план ухода за пациентом.

  • Эти же эксперты потом проводили «слепую» оценку. Нужно было выбрать лучшее решение из двух предложенных. Какое написал человек, а какое нейросеть, оценщики не видели.

  • GPT-5-high в 40,6% предложила вариант лучше, чем человек, или на одном уровне с ним. Для сравнения — GPT-4o справилась с 12% задач. Результат Claude Opus 4.1 от Anthropic — 49%. Она преуспела в задачах, где было важно визуальное оформление документов и слайдов.
  • Это обобщённые результаты. Данными по каждой профессии и примерами ответов моделей компания не поделилась.
  • Исследование показывает, что сотрудники теперь могу уверенно делегировать моделям часть рутины, и не означает «замену» профессий, отмечает OpenAI.
21
10
3
3
123 комментария