Когда ИИ заменит человека: исследование OpenAI

OpenAI опубликовали исследование производительности ИИ на реальных рабочих задачах, которые обычно выполняют специалисты.

Для этого создали специальный стандарт GDPval - он оценивает, насколько хорошо модели справляются с реальными, экономически значимыми задачами.

На одном из скринов виден резкий скачок качества за последний год. У GPT процент выполненных задач вырос с 12% до 38% — это в три раза больше! Еще немного, и ЖПТ догонит отраслевых экспертов по качеству работы.

Второй скрин показывает текущие возможности современных моделей. Клод уверенно лидирует! Уже почти как человек. Возможно, скоро самое популярное имя для детей станет Клод😄

Это была общая сводка по выполненным задачам. В следующих постах дам детальный разбор.

Об исследовании

Главная цель GDPval:

Создать инструмент для измерения способности ИИ-моделей выполнять работу, которую сейчас делают люди, и оценить их потенциальное влияние на экономику до массового внедрения.

Методология:

Задачи: GDPval включает 1320 реальных рабочих задач из 44 профессий, охватывающих 9 ключевых секторов экономики США, которые формируют основу ВВП.

Источник задач: Задачи создавали отраслевые эксперты со средним опытом работы 14 лет на основе их реальных рабочих проектов. Это гарантирует реалистичность и сложность заданий.

Оценка: Основной метод оценки — прямое сравнение результатов ИИ и человека. Эксперты вслепую (не зная, кто автор) сравнивают два выполненных задания и выбирают лучшее. Ключевая метрика — «win rate», процент случаев, когда работа ИИ признана равной или лучше человеческой.

Ну как, впечатляет?

Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.