Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня

ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?

Сравнение, как люди‑эксперты и не‑эксперты отвечают на очень сложные вопросы по биологии, физике и химии. Источник
Сравнение, как люди‑эксперты и не‑эксперты отвечают на очень сложные вопросы по биологии, физике и химии. Источник

🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале

Что это за тест и зачем он нужен

Речь идёт о новом бенчмарке, созданном для проверки глубоких экспертных навыков, а не общей эрудиции. В отличие от привычных тестов, здесь недостаточно узнать шаблон или вспомнить факт.

GPQA — это тест на экспертное рассуждение, а не на общую эрудицию. Он состоит примерно из 450 вопросов уровня аспирантуры (PhD) в областях физики, химии и биологии. Все вопросы были составлены и проверены предметными экспертами, а не сгенерированы автоматически, что принципиально отличает его от многих других бенчмарков.

Ключевая особенность теста в том, что вопросы невозможно решить с помощью поиска или поверхностного знания. В формулировках нет прямых подсказок, а для правильного ответа часто требуется многошаговое рассуждение, работа с допущениями и понимание фундаментальных принципов, а не узнавание знакомых паттернов.

Методика измерения простая по форме, но жёсткая по сути. Вопросы представлены в формате выбора одного правильного ответа. Результаты сравниваются между разными группами — экспертами-людьми, студентами и ведущими языковыми моделями. Оценка строится по доле правильных ответов, без подсказок, интерактивных уточнений или возможности «дорассуждать» в диалоге.

Тест GPQA разработан и проведён исследователями из Google DeepMind совместно с академическими экспертами (включая PhD-уровень специалистов), которые сами формировали и проверяли вопросы.

Задачи требуют многошагового рассуждения, работы с неопределённостью, выбора допущений и проверки собственных выводов. Ровно того, что делают эксперты в реальных условиях.

Что именно показал тест?

Результат оказался неожиданным: ни одна из ведущих моделей не превысила 40% правильных ответов. Для теста, рассчитанного на высокий порог, это и было задумано, но цифра всё равно бросается в глаза.

GPQA специально спроектирован так, чтобы отделить знание фактов и умение угадывать от глубокого понимания и реального экспертного мышления.

Тест считается сложным даже для людей: хорошо подготовленные специалисты не показывают в нём результатов на уровне 90% и выше.

Важно понимать, где именно модели «ломаются»:

- они хорошо стартуют, но теряют нить в длинных цепочках рассуждений;
- уверенно выбирают один из вариантов, когда нужно сначала уточнить условия;
- дают правдоподобный ответ там, где требуется аккуратная проверка предпосылок.

Схема исследования. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2311.12022&postId=2715060" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Схема исследования. Источник

Менее 40% – это не «меньше половины вопросов вообще», а меньше половины задач, которые сами авторы теста считают принципиально сложными даже для подготовленного человека.

Как трактовать результат, и как не трактовать

Эксперты сразу предостерегают от простой интерпретации. Это не значит, что: ИИ «стал хуже»; модели бесполезны в работе; предыдущие успехи были иллюзией.

И это действительно значит, что:

– текущие модели плохо справляются с задачами, где нужно долго удерживать контекст и сомневаться;

– уверенный ответ не равен глубокому пониманию;

– привычные метрики завышают ощущение «умности» ИИ.

Проще говоря, тест измеряет не скорость и гладкость ответа, а способность не отвечать слишком рано.

Насколько важно для качества ответа не отвечать рано, пришли к выводу в другом исследовании, читайте тут.

Этот тест не доказывает, что ИИ «плох». Он показывает, что наши ожидания и метрики долго были слишком простыми. Менее 40% — это не провал моделей, а напоминание: экспертное мышление — это не знание ответа, а умение вовремя остановиться, уточнить и пересобрать задачу. И именно это сейчас становится новой планкой для оценки ИИ.

Почему проблема не только в моделях, но и в измерении?

Индустрия много лет оптимизировалась под ограниченный набор бенчмарков. Модели научились проходить их всё лучше, иногда за счёт узнавания формата, а не реального роста способностей.

Новый тест ломает эту динамику:

– задачи не похожи на тренировочные данные;

– нет «короткого пути» к ответу;

– ошибки выглядят логично, но фатально. Это вскрывает разрыв между оценкой по результату и оценкой по процессу мышления.

Что дальше?

Результат ниже 40% – не тупик, а повод пересобрать измерение.

Сейчас обсуждаются альтернативы: оценка по шагам рассуждения, а не финальному ответу; тесты с интерактивным уточнением условий; симуляции реальных экспертных сценариев вместо статичных задач.Фокус смещается с «правильно/неправильно» к «как модель пришла к выводу».

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
1 комментарий