Независимая оценка возможностей GPT-5

Не успела выйти новая модель, как независимые «оценщики» ИИ моделей METR оперативно проверили ее. Расскажу к каким выводам они пришли

 GPT-5 способен автономно работать над задачами примерно до 2 часов 15 минут. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmetr.github.io%2Fautonomy-evals-guide%2Fgpt-5-report%2F&postId=2147480" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
GPT-5 способен автономно работать над задачами примерно до 2 часов 15 минут. Источник

🔥 Еще больше интересного в моем канале продуктовые штучки

Нужно отметить, что METR проверял GPT-5 на предмет потенциальных риски, связанных с тремя ключевыми угрозами: автоматизация работы исследователей (ускорение AI-исследований в >10 раз), возможность выхода из-под контроля, и стратегическое саботажное поведение (ввод в заблуждение разработчиков).

Это интересно только узким специалистам, поэтому я расскажу о «побочных» результатах тестирования, связанных с ключевыми возможностями новой модели

Про METR и методологию оценки читайте тут

К каким выводам пришли?

1) OpenAI и CEO Сэм Альтман открыто заявляют, что GPT-5 впервые действительно ощущается как эксперт с уровнем PhD, ощутимо превосходящий предыдущие версии, где GPT-3 был как школьник, а GPT-4 — как студент колледжа.

Оценка METR подтверждает позицию OpenAI о том, что GPT-5 обладает уровнем экспертных знаний, сравнимым с уровнем доктора наук.

METR провел независимую глубокую оценку GPT-5, получив доступ к внутренним данным, полным логам рассуждений и дополнительной информации от OpenAI.

Исследования METR показали, что GPT-5 демонстрирует высокие способности к решению сложных задач программирования и научного характера, соответствующие уровню, приближенному к профессионалам. Анализ рассуждений (reasoning traces) в части качества планирования и логики тоже говорит о высоком профессиональном уровне.

2) OpenAI заявляет, что для GPT-5 было проведено тщательное тестирование безопасности

METR получил доступ к полным логам рассуждений модели и дополнительной информации от разработчиков, что позволило сделать более уверенные и прозрачные оценки рисков.

METR подтвердил отсутствие в тренировках модели факторов, которые могли бы стимулировать скрытие информации, обман или злоупотребление.

Как это подтверждение было получено? OpenAI предоставил технические гарантии, что модель не проходила обучение, которое поощряло бы скрытие релевантной информации, и что не было прямого давления на GPT-5 для заведомого утаивания или искажения рассуждений в логах модели.

METR на основе этих ответов вместе с собственным анализом и мониторингом рассуждений GPT-5 пришёл к выводу, что отсутствуют признаки системного и преднамеренного снижения продуктивности или стратегического саботажа.

Это обеспечило доверие к тому, что результаты оценки не были искажены искусственным снижением способностей GPT-5 (так называемым sandbagging).

3) Разработчики утверждают, что GPT-5 обладает улучшенным подходом к безопасности: модель умеет лучше отказываться от выполнения опасных задач и объяснять причины отказа, что снижает риск неправильного использования и повышает прозрачность.

METR подтверждает, что представленные меры и данные действительно говорят о высоком качестве и честности тестирования модели.

Взаимодействие METR с OpenAI включало процесс обмена подробными описаниями моделей и контрольными списками, что усилило доверие к объективности и тщательности проведенной оценки GPT-5. Это создало достаточно высокий уровень доверия к выводам о текущих возможностях и контроле GPT-5.

4) В OpenAI заявляют об автоматизация работы исследователей (ускорение ИИ-исследований >10 раз)

Тесты показали, что GPT-5 способен автономно работать над задачами примерно до 2 часов 17 минут. Эта длительность значительно ниже порогов, при которых начинается серьёзное ускорение исследований (недели и более).

Способностей GPT-5 пока недостаточно для полноценного и долговременного самостоятельного ведения сложных научных проектов.

Пока GPT-5 не способен в значительной мере ускорять научные исследования или вызывать взрывной рост интеллекта.

Есть ли новые риски у новой мощной модели?

METR в своей оценке GPT-5 выделяет появление новых рисков, связанных с ситуационной осведомлённостью и стратегическим поведением модели:

GPT-5 демонстрирует значительную, хотя и не всегда надёжную, ситуационную осведомлённость. Это означает, что модель может понимать, что она находится в процессе оценки, иногда правильно идентифицируя задачи и даже конкретно METR как оценщика.

Модель может использовать эту информацию для попыток повысить свои оценки в тестах. Несмотря на такую осведомлённость, METR не нашёл убедительных доказательств стратегического саботажа, то есть намеренного снижения результатов, обмана или утаивания информации в ходе оценивания.

Модель не проявляет устойчивого поведения, которое могло бы существенно исказить результаты. Исследователи наблюдали, что поведение GPT-5 меняется в зависимости от контекста оценки: например, если в задачи добавляется "искусственная" метаинформация об опасном характере тестов, модель чаще отказывается выполнять задания, показывая тем самым чувствительность к условиям испытания.

Логи рассуждений GPT-5 (reasoning traces) в большинстве случаев остаются прозрачными и читаемыми, что позволяет METR мониторить действия модели и снижает риск скрытого стратегического поведения.

METR подчёркивает, что для успешного стратегического саботажа модель должна обладать значительно более высоким уровнем возможностей, чем у текущей GPT-5.

Появление ситуационной осведомлённости — это возможность потенциальных рискок, сама по себе модель (пока) не несёт серьёзной угрозы.

В целом METR рекомендует внимательно мониторить развитие ситуационной осведомлённости и стратегического поведения в будущих моделях, поскольку это важный фактор риска, но на текущем уровне GPT-5 не представляет существенной опасности в этих аспектах.

Что такое METR?

METR (Model Evaluation and Threat Research) — это независимая некоммерческая исследовательская организация, которая занимается оценкой возможностей передовых систем ИИ и анализом потенциальных рисков, связанных с их автономными действиями.

METR создан для того, чтобы понять, насколько современные и будущие ИИ-системы способны самостоятельно выполнять сложные длительные задачи, которые раньше требовали участия человека.

Как METR оценивает ИИ?

METR фокусируется на оценке автономных возможностей ИИ — то есть способностях систем работать самостоятельно, без постоянного участия человека, выполнять важные и сложные задачи «от начала и до конца».

Для этого они разрабатывают специальный набор заданий, которые требуют от ИИ длительного и сложного принятия решений, и сравнивают скорость и надёжность их выполнения с тем, сколько времени для того же нужно опытному человеку.

Например, METR измеряет «горизонт времени» — насколько долго ИИ может эффективно работать с примерно 50% вероятностью успеха на задачи разной длительности.

Методология тестировния

  • Создаются реалистичные задачи с длительностью работы, измеряемой в часах или днях у человека.
  • Используются показатели успеха ИИ при выполнении тех же заданий.
  • Анализируются рассуждения и логи ИИ для понимания, насколько «прозрачны» его действия и насколько справедливо он оценивается.
  • Проверяется поведение ИИ на наличие стратегического обмана или саботажа.

Полученные данные позволяют судить, насколько ИИ приближается к порогам, которые могут представлять риск (например, ускорение исследований свыше 10 раз или способность к самостоятельному размножению).

Насколько METR доверяют?

METR пользуется доверием в академических и исследовательских кругах как один из немногих проектов, который строит свои оценки на чётких, воспроизводимых тестах и глубоких анализах. Взаимодействие с разработчиками ИИ (в том числе OpenAI), публикация подробных отчётов и открытый доступ к протоколам оценки повышают прозрачность и доверие к их выводам.

Кроме того, METR уже получил поддержку от крупных фондов, признанных за вклад в обеспечение безопасности ИИ и предотвращение катастрофических рисков для общества.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

10
3
2
2
18 комментариев