OpenAI протестировала известные ИИ на задачах из 44 профессий — модели еще только приближаются к уровню специалистов

Компания OpenAI представила новый инструмент оценки под названием GDPval — это масштабный тест, созданный для того, чтобы понять, насколько ИИ может справляться с задачами из реальных профессий. В исследовании участвовали лучшие языковые модели, включая GPT‑5, Claude Opus 4.1, Gemini 2.5 и Grok 4. Их сравнивали с работой специалистов из 44 разных профессий, от медицины до финансов. Задания разрабатывались экспертами с в среднем 14 годами опыта.

Всего было протестировано 1 320 задач. Они не ограничивались текстовыми инструкциями — в них входили макеты, таблицы, слайды, файлы с форматированием и дополнительные материалы. Модели получали задания в «одиночном» формате: без возможности уточнений или переписываний. По итогам, Claude Opus 4.1 показал наивысший процент выигрышей (47,6%) по сравнению с профессионалами, особенно в задачах, где важна визуальная подача. GPT‑5 лидировал по точности в технических заданиях.

Отдельно отмечено, что всего за 15 месяцев производительность моделей выросла в три раза. Если сравнивать GPT‑4o с GPT‑5, рост оказался значительным по всем категориям. При этом выполнение задач ИИ обходится в разы дешевле и быстрее — как минимум с точки зрения времени генерации и стоимости через API.

Но авторы подчёркивают: даже при высоких результатах ИИ ещё не замещает специалистов. Речь идёт лишь о приближении к их уровню — на отдельных типах задач, при однократном выполнении и в изолированной среде. GDPval не охватывает работу в команде, взаимодействие с клиентами, управление неоднозначными ситуациями и необходимость в правках — всё то, что составляет значимую часть повседневной профессиональной деятельности.

Интересный результат касается не только моделей, но и формата. Сильные стороны ИИ проявились в задачах, где важно оформление, структура, наглядность — там, где модели хорошо справляются с созданием слайдов, таблиц, презентаций. А вот в заданиях с открытым вопросом или требующих экспертного суждения преимущество было не столь очевидным.

GDPval не является финальной метрикой. Это промежуточный шаг — попытка перевести дискуссию о «замене профессий» в более конкретную плоскость. OpenAI намерена развивать этот тест, публиковать открытые части задач и продолжать отслеживать, как быстро модели приближаются к профессиональным стандартам. Пока вывод один: ИИ уже может выполнять часть работы на уровне опытных специалистов — но с серьёзными оговорками.

#ai #aitechnology #openai #chatgpt #claude #grok #gemini #искусственныйинтеллект #технологии #технологиибудущего #языковыемодели #эксперимент #тест