OpenAI замерили, как ИИ справляется с реальными рабочими задачами

Показатель GDPval помогает понять, какие задачи уже можно безопасно поручать ИИ уже сейчас в основных профессиях в ключевых для бизнеса отраслей, чтобы сэкономить время и деньги. Расскажу, что показали первые результаты

Коэффициент выигрыша GDPval при выполнении экономически значимых задач. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fgdpval%2F&postId=2239511" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

GDPval — это новый бенчмарк от OpenAI, который измеряет, как ИИ справляется с реальными “экономически ценными” задачами из 44 профессий в 9 ключевых для ВВП отраслей.

GDPval оценивает модели на 1 320 реальных профессиональных задачах из 44 профессий, выбранных в 9 крупнейших по вкладу в ВВП США отраслях, а набор включает 220 задач для сторонних проверок. И это – ключевое отличие бенчмармка (рабочие задачи из важнейших отраслей экономики).

🔥 Еще больше интересного в моем канале продуктовые штучки

Задания напоминают настоящие рабочие артефакты с файлами и контекстом, от юридических записок и таблиц до презентаций и схем, что делает тест ближе к повседневной интеллектуальной работе, а не к академическим викторинам.

GDPval сравнивает готовые результаты моделей и людей в “слепых” парных оценках экспертами соответствующих профессий, после чего считается доля выигрышей и ничьих как интегральная метрика качества. Задания основаны на реальных рабочих продуктах с файлами, контекстом и разными форматами (документы, презентации, таблицы, диаграммы, мультимедиа).

44 профессии, задачи по которым оценивались. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.openai.com%2Fpdf%2Fd5eb7428-c4e9-4a33-bd86-86dd4bcf12ce%2FGDPval.pdf&postId=2239511" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Задачи написаны и многократно провалидированы опытными специалистами (в среднем 14+ лет стажа), чтобы отражать типичную работу и быть пригодными для объективного сравнения. Качество проверяют “слепые” эксперты той же профессии, сравнивая результаты модели и человека по разработанным рубрикам; есть экспериментальный автооценщик, но он не заменяет экспертную проверку.

Первые результаты показывают, что лучшие модели уже близки к работе экспертов на части задач, но оценка пока одношаговая, и не покрывает весь цикл работы в компаниях.

Лучшие модели уже “подбираются” к уровню экспертов на части заданий: Claude Opus 4.1 лидирует по эстетике и оформлению, тогда как GPT‑5 выделяется точностью и поиском доменных фактов.

Прогресс заметен: от GPT‑4o (весна 2024) к GPT‑5 (лето 2025) качество на этих задачах более чем удвоилось.

Так, GPT‑5‑high выигрывает или работает как человек примерно в 40.6% заданий, а Claude Opus 4.1 — около 49% по слепым сравнениям с работами профессионалов. Для ориентира: GPT‑4o образца 2024 года набирало порядка 13.7%, то есть прогресс близок к трехкратному росту по этой метрике.

У Opus 4.1 чаще отмечают преимущество в оформлении и эстетике итоговых артефактов по мнению профессиональных оценщиков. GPT‑5 чаще выделяется точностью и фактологией в содержании, что помогает в задачах, где критичны доменные детали.

В проигрышных случаях модели чаще всего ошибались в следовании инструкциям, обращении с данными и форматировании, а также допускали фактические неточности или галлюцинации

Добавление пошагового рассуждения и “скелетирования” (scaffolding) снижало долю таких промахов, но полностью их не устраняло. На это накладываются ограничения самого протокола GDPval: одношаговая постановка без итераций и обратной связи увеличивает риск пропусков и недочетоСледование инструкциям:в в сложных, многофайловых заданиях.

Основные случаи, когда модели проигрывают:

Следование инструкциям: неполное выполнение требований, пропуск ограничений или ожиданий по форме и содержанию ответа вело к проигрышу против работ экспертов.

Работа с данными: игнорирование приложенных файлов, неверная экстракция или использование данных и ошибки в интерпретации подрывали качество итогового результата.

Формат и структура: неряшливое оформление слайдов/документов и несоответствие ожидаемым артефактам снижали предпочтение оценщиков.

Точность и галлюцинации: фактические неточности и неистинные детали приводили к снижению предпочтения в слепом сравнении с профессионалами.

Задачи GDPval реалистичны и многомодальны: они включают контекст и файлы, а ожидаемые артефакты — документы, таблицы, слайды и мультимедиа, что усложняет безошибочное одношаговое выполнение без итераций и уточнений.

Текущая версия оценки — одношаговая, поэтому не учитывает привычные в работе циклы “черновик → обратная связь → доработка”, где многие ошибки обычно ловятся и исправляются.

Повышение “усилий рассуждения” и усиление scaffolding (например, проверки формата и самоконтроль через рендеринг артефактов) стабильно повышают качество и сокращают долю промахов по инструкциям, данным и оформлению. Более богатый контекст и продуманная подача материалов также улучшают результаты на этих реальных задачах.

Планируется расширение на больше профессий, более интерактивные сценарии и задачи с неопределенностью, чтобы лучше отражать живые рабочие процессы и цикл “черновик → обратная связь → доработка”.

Цель — измерять прогресс ИИ на разнообразной интеллектуальной работе так, чтобы это помогало повышать производительность и смещать людей к более творческим и требующим суждения задачам.

Наташа Хазеева

21.09.2025

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

#gdpval #openai #ии #искусственныйинтеллект #llm #benchmarks #оценкамоделей #производительность #автоматизация #продуктивность #навыкибудущего #экономика #ввп #реальныезадачи #knowledgework #генеративныйии #ml #aiops #datadriven #цифроваятрансформация

OpenAI замерили, как ИИ справляется с реальными рабочими задачами

Что это?

Основные выводы

Где модели сильнее человека?

В чем модели проигрывают человеку?

Почему так происходит и что уменьшает ошибки?

Что дальше?

Пожалуйста, поддержите меня, поставьте лайк! 🙏