ИИ-модели работают на уровне экспертов в финансах, маркетинге, медицине и других сферах
Заберёт ИИ у людей работу или не заберёт — пока ещё толком не ясно. Но мы уже прошли стадию рассуждений. Пришло время реального тестирования ИИ в реальных задачах из разных сфер и профессий. Выводы тревожные.
OpenAI провела тестирование моделей, своих, конечно, и Anthropic на 1320 задачах для 44 профессий.
Примечание: показатель в 50% выполнения исследователи считают уровнем опытного специалиста.
Ребята разработали набор тестов, позволяющих определить, насколько эффективны ИИ-модели в прикладных задачах. Выбор пал на 44 профессии из значимых для ВВП США отраслей. К слову, они значимы практически для любых других достаточно развитых стран.
Судите сами, среди выбранных профессий: разработчики ПО, юристы, бухгалтеры, финансовые консультанты и аналитики, журналисты, работники служб поддержки, менеджеры по продажам, врачи и так далее.
Для каждой профессии составили по 30 типичных задач, помогали в этом специалисты с опытом не менее 14 лет. Например, ИИ-моделям нужно было написать юридическое заключение или составить план ухода за пациентом. Те же самые специалисты потом проводили «слепое» тестирование: выбор лучшего решения из двух предложенных. Какое написал человек, а какое нейросеть, эксперты, разумеется, не знали.
Итог:
- GPT-5-high в 40,6% предложила вариант лучше, чем человек, или на одном уровне с ним
- Claude Opus 4.1 от Anthropic — 49%
💬 То есть по «правилам» тестирования модели вполне сопоставимы с опытными сотрудниками. А я просто ещё раз напомню: ИИ — прекрасный инструмент, особенно в умелых руках. Осваивайте этот инструмент, развивайте навыки работы с ним. Иначе потом ИИ не возьмёт даже батарейки роботам менять, они это уже сами умеют делать 😂
Подписывайтесь на Telegram Нейрочеловек.