AI в работе: как OpenAI оптимизирует задачи на $3T в год

GDPval - Как AI может помочь с работой на $3T в год

Получил удовольствие от чтения новой работы OpenAI, где они наняли людей и AI на выполнение самых популярных "цифровых" задач и показали, что сотрудник на пару с моделькой может работать в полтора раза быстрее и дешевле.

Давайте разбираться:

1) Они взяли 1320 задачи, выполняемые 44 профессиями в индустриях, ответственных за наибольший вклад в ВВП США - тут и мои любимые сейлзы (оптовые продажи), и риэлторы, и медики, и даже частные детективы (!). Важно: в основном, выбирались "цифровые" профессии, т.е. такие, где 60%+ задач можно выполнить на компе.

2) Дальше они наняли людей-профессионалов, в среднем, с 14-летним опытом работы в этих ролях в топовых компаниях мира; и те составили 1320 задачек с описанием задачи и приложениями (например, экселька с данными, или картинка) и ожидаемым результатом. Укороченный пример задачки для аккаунт директора в косметическом бренде: "Тебе надо проанализировать продажи за 2023 для makeup категории товаров и представить отчет в эксель виде. В приложении экселька с продажами"

3) Потом эксперты вслепую оценивали результаты работы людей и машин: машины уверенно приближаются к результатам экспертов, особенно отличился Claude Opus 4.1 - см картинку. В основном, машины проигрывали людям из-за плохого следования инструкциям. И еще важно, что люди могли вычислить результаты работы модели по emdash-ам и тп стилистическим аспектам, поэтому тут мог быть bias.

Также примечательно и похвально, что в ресерче OpenAI они честно показали про Claude. Но что-то мне подсказывает, что сделали они это уже зная, что побьют на этих эвалах своей следующей моделькой :) Если пойти в дебри "почему" обычно проигрывала openai, то дело было в форматировании/эстетике ответов, нежели в точности. Рекомендую почитать, не просто опираться на среднюю температуру по больнице —> это можеть дать идеи по преимуществам и недостаткам.

"We built a clustering pipeline to analyze why experts preferred or rejected GPT-5 high, Claude Opus 4.1, Gemini 2.5 Pro, and Grok 4 deliverables as shown in fig. 8.5 Claude, Grok, and Gemini most often lost due to instruction-following failures, while GPT-5 high lost mainly from formatting errors and had the fewest instruction-following issues. Gemini and Grok frequently promised but failed to provide deliverables, ignored reference data, or used the wrong format. GPT-5 and Grok showed the fewest accuracy errors, though all models sometimes hallucinated data or miscalculated."

4) Интересно, что промптированием и тейлорингом можно было относительно легко повысить точность, поэтому имеет смысл тюнить агентов и промпты под конкретные доменные области

5) В сценариях, где человеку предлагалась в помощь машина в режиме "попробуй с AI, а если результат не понравится, то сделай сам), они выполняли задачу быстрее и дешевле в 1.5 раза —> де-факто это потенциал оптимизации по состоянию на сегодня. Важно: оценка по деньгам только для openai моделей.

6) и напоследок все это дело они заопенсорсили - я уже запланировал покопаться глубже в тасках, особенно в преддверии AI продактивити курса, потому что будет прикольно поразбирать конкретные таски, кроссчекнуть выводы openai и подобрать промпты, чтобы улучшить бенчмарки :)

В общем, рекомендую!

Подписывайтесь на Telegram e/acc.