OpenAI замерили, как ИИ справляется с реальными рабочими задачами
Показатель GDPval помогает понять, какие задачи уже можно безопасно поручать ИИ уже сейчас в основных профессиях в ключевых для бизнеса отраслей, чтобы сэкономить время и деньги. Расскажу, что показали первые результаты
Что это?
GDPval — это новый бенчмарк от OpenAI, который измеряет, как ИИ справляется с реальными “экономически ценными” задачами из 44 профессий в 9 ключевых для ВВП отраслей.
GDPval оценивает модели на 1 320 реальных профессиональных задачах из 44 профессий, выбранных в 9 крупнейших по вкладу в ВВП США отраслях, а набор включает 220 задач для сторонних проверок. И это – ключевое отличие бенчмармка (рабочие задачи из важнейших отраслей экономики).
🔥 Еще больше интересного в моем канале продуктовые штучки
Задания напоминают настоящие рабочие артефакты с файлами и контекстом, от юридических записок и таблиц до презентаций и схем, что делает тест ближе к повседневной интеллектуальной работе, а не к академическим викторинам.
GDPval сравнивает готовые результаты моделей и людей в “слепых” парных оценках экспертами соответствующих профессий, после чего считается доля выигрышей и ничьих как интегральная метрика качества. Задания основаны на реальных рабочих продуктах с файлами, контекстом и разными форматами (документы, презентации, таблицы, диаграммы, мультимедиа).
Задачи написаны и многократно провалидированы опытными специалистами (в среднем 14+ лет стажа), чтобы отражать типичную работу и быть пригодными для объективного сравнения. Качество проверяют “слепые” эксперты той же профессии, сравнивая результаты модели и человека по разработанным рубрикам; есть экспериментальный автооценщик, но он не заменяет экспертную проверку.
Основные выводы
Первые результаты показывают, что лучшие модели уже близки к работе экспертов на части задач, но оценка пока одношаговая, и не покрывает весь цикл работы в компаниях.
Лучшие модели уже “подбираются” к уровню экспертов на части заданий: Claude Opus 4.1 лидирует по эстетике и оформлению, тогда как GPT‑5 выделяется точностью и поиском доменных фактов.
Прогресс заметен: от GPT‑4o (весна 2024) к GPT‑5 (лето 2025) качество на этих задачах более чем удвоилось.
Так, GPT‑5‑high выигрывает или работает как человек примерно в 40.6% заданий, а Claude Opus 4.1 — около 49% по слепым сравнениям с работами профессионалов. Для ориентира: GPT‑4o образца 2024 года набирало порядка 13.7%, то есть прогресс близок к трехкратному росту по этой метрике.
Где модели сильнее человека?
У Opus 4.1 чаще отмечают преимущество в оформлении и эстетике итоговых артефактов по мнению профессиональных оценщиков. GPT‑5 чаще выделяется точностью и фактологией в содержании, что помогает в задачах, где критичны доменные детали.
В чем модели проигрывают человеку?
В проигрышных случаях модели чаще всего ошибались в следовании инструкциям, обращении с данными и форматировании, а также допускали фактические неточности или галлюцинации
Добавление пошагового рассуждения и “скелетирования” (scaffolding) снижало долю таких промахов, но полностью их не устраняло. На это накладываются ограничения самого протокола GDPval: одношаговая постановка без итераций и обратной связи увеличивает риск пропусков и недочетоСледование инструкциям:в в сложных, многофайловых заданиях.
Основные случаи, когда модели проигрывают:
Следование инструкциям: неполное выполнение требований, пропуск ограничений или ожиданий по форме и содержанию ответа вело к проигрышу против работ экспертов.
Работа с данными: игнорирование приложенных файлов, неверная экстракция или использование данных и ошибки в интерпретации подрывали качество итогового результата.
Формат и структура: неряшливое оформление слайдов/документов и несоответствие ожидаемым артефактам снижали предпочтение оценщиков.
Точность и галлюцинации: фактические неточности и неистинные детали приводили к снижению предпочтения в слепом сравнении с профессионалами.
Почему так происходит и что уменьшает ошибки?
Задачи GDPval реалистичны и многомодальны: они включают контекст и файлы, а ожидаемые артефакты — документы, таблицы, слайды и мультимедиа, что усложняет безошибочное одношаговое выполнение без итераций и уточнений.
Текущая версия оценки — одношаговая, поэтому не учитывает привычные в работе циклы “черновик → обратная связь → доработка”, где многие ошибки обычно ловятся и исправляются.
Повышение “усилий рассуждения” и усиление scaffolding (например, проверки формата и самоконтроль через рендеринг артефактов) стабильно повышают качество и сокращают долю промахов по инструкциям, данным и оформлению. Более богатый контекст и продуманная подача материалов также улучшают результаты на этих реальных задачах.
Что дальше?
Планируется расширение на больше профессий, более интерактивные сценарии и задачи с неопределенностью, чтобы лучше отражать живые рабочие процессы и цикл “черновик → обратная связь → доработка”.
Цель — измерять прогресс ИИ на разнообразной интеллектуальной работе так, чтобы это помогало повышать производительность и смещать людей к более творческим и требующим суждения задачам.