Когда ИИ заменит человека: исследование OpenAI
OpenAI опубликовали исследование производительности ИИ на реальных рабочих задачах, которые обычно выполняют специалисты.
Для этого создали специальный стандарт GDPval - он оценивает, насколько хорошо модели справляются с реальными, экономически значимыми задачами.
На одном из скринов виден резкий скачок качества за последний год. У GPT процент выполненных задач вырос с 12% до 38% — это в три раза больше! Еще немного, и ЖПТ догонит отраслевых экспертов по качеству работы.
Второй скрин показывает текущие возможности современных моделей. Клод уверенно лидирует! Уже почти как человек. Возможно, скоро самое популярное имя для детей станет Клод😄
Это была общая сводка по выполненным задачам. В следующих постах дам детальный разбор.
Об исследовании
Главная цель GDPval:
Создать инструмент для измерения способности ИИ-моделей выполнять работу, которую сейчас делают люди, и оценить их потенциальное влияние на экономику до массового внедрения.
Методология:
Задачи: GDPval включает 1320 реальных рабочих задач из 44 профессий, охватывающих 9 ключевых секторов экономики США, которые формируют основу ВВП.
Источник задач: Задачи создавали отраслевые эксперты со средним опытом работы 14 лет на основе их реальных рабочих проектов. Это гарантирует реалистичность и сложность заданий.
Оценка: Основной метод оценки — прямое сравнение результатов ИИ и человека. Эксперты вслепую (не зная, кто автор) сравнивают два выполненных задания и выбирают лучшее. Ключевая метрика — «win rate», процент случаев, когда работа ИИ признана равной или лучше человеческой.
Ну как, впечатляет?
Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.