OpenAI: GPT-5 и Claude Opus «приблизились» к уровню экспертов в прикладных задачах в финансах, маркетинге, медицине и других сферах
Компания протестировала модели на 1320 задачах 44 профессий.
Показатель в 50% исследователи считают уровнем опытного специалиста. Источник: OpenAI
- OpenAI разработала набор тестов GDPval, который проверяет, насколько эффективны ИИ-модели в прикладных задачах. Она выбрала 44 профессии из «значимых» для ВВП США отраслей. Среди них — разработчики ПО, юристы, бухгалтеры, финансовые консультанты и аналитики, журналисты, работники службы поддержки, менеджеры по продажам и врачи.
Одна из задач в GDPval — провести аудит строк с заказами, найти ошибки, из-за которых выставили неверные счета, исправить и составить отчёт. Источник: OpenAI
Для каждой профессии составили по 30 «типичных» задач совместно со специалистами с опытом не менее 14 лет. Например, моделям нужно было написать юридическое заключение или составить план ухода за пациентом.
Эти же эксперты потом проводили «слепую» оценку. Нужно было выбрать лучшее решение из двух предложенных. Какое написал человек, а какое нейросеть, оценщики не видели.
- GPT-5-high в 40,6% предложила вариант лучше, чем человек, или на одном уровне с ним. Для сравнения — GPT-4o справилась с 12% задач. Результат Claude Opus 4.1 от Anthropic — 49%. Она преуспела в задачах, где было важно визуальное оформление документов и слайдов.
- Это обобщённые результаты. Данными по каждой профессии и примерами ответов моделей компания не поделилась.
- Исследование показывает, что сотрудники теперь могу уверенно делегировать моделям часть рутины, и не означает «замену» профессий, отмечает OpenAI.
123 комментария