Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня
ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?
🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале
Что это за тест и зачем он нужен
Речь идёт о новом бенчмарке, созданном для проверки глубоких экспертных навыков, а не общей эрудиции. В отличие от привычных тестов, здесь недостаточно узнать шаблон или вспомнить факт.
GPQA — это тест на экспертное рассуждение, а не на общую эрудицию. Он состоит примерно из 450 вопросов уровня аспирантуры (PhD) в областях физики, химии и биологии. Все вопросы были составлены и проверены предметными экспертами, а не сгенерированы автоматически, что принципиально отличает его от многих других бенчмарков.
Ключевая особенность теста в том, что вопросы невозможно решить с помощью поиска или поверхностного знания. В формулировках нет прямых подсказок, а для правильного ответа часто требуется многошаговое рассуждение, работа с допущениями и понимание фундаментальных принципов, а не узнавание знакомых паттернов.
Методика измерения простая по форме, но жёсткая по сути. Вопросы представлены в формате выбора одного правильного ответа. Результаты сравниваются между разными группами — экспертами-людьми, студентами и ведущими языковыми моделями. Оценка строится по доле правильных ответов, без подсказок, интерактивных уточнений или возможности «дорассуждать» в диалоге.
Тест GPQA разработан и проведён исследователями из Google DeepMind совместно с академическими экспертами (включая PhD-уровень специалистов), которые сами формировали и проверяли вопросы.
Задачи требуют многошагового рассуждения, работы с неопределённостью, выбора допущений и проверки собственных выводов. Ровно того, что делают эксперты в реальных условиях.
Что именно показал тест?
Результат оказался неожиданным: ни одна из ведущих моделей не превысила 40% правильных ответов. Для теста, рассчитанного на высокий порог, это и было задумано, но цифра всё равно бросается в глаза.
GPQA специально спроектирован так, чтобы отделить знание фактов и умение угадывать от глубокого понимания и реального экспертного мышления.
Тест считается сложным даже для людей: хорошо подготовленные специалисты не показывают в нём результатов на уровне 90% и выше.
Важно понимать, где именно модели «ломаются»:
- они хорошо стартуют, но теряют нить в длинных цепочках рассуждений;
- уверенно выбирают один из вариантов, когда нужно сначала уточнить условия;
- дают правдоподобный ответ там, где требуется аккуратная проверка предпосылок.
Менее 40% – это не «меньше половины вопросов вообще», а меньше половины задач, которые сами авторы теста считают принципиально сложными даже для подготовленного человека.
Как трактовать результат, и как не трактовать
Эксперты сразу предостерегают от простой интерпретации. Это не значит, что: ИИ «стал хуже»; модели бесполезны в работе; предыдущие успехи были иллюзией.
И это действительно значит, что:
– текущие модели плохо справляются с задачами, где нужно долго удерживать контекст и сомневаться;
– уверенный ответ не равен глубокому пониманию;
– привычные метрики завышают ощущение «умности» ИИ.
Проще говоря, тест измеряет не скорость и гладкость ответа, а способность не отвечать слишком рано.
Насколько важно для качества ответа не отвечать рано, пришли к выводу в другом исследовании, читайте тут.
Этот тест не доказывает, что ИИ «плох». Он показывает, что наши ожидания и метрики долго были слишком простыми. Менее 40% — это не провал моделей, а напоминание: экспертное мышление — это не знание ответа, а умение вовремя остановиться, уточнить и пересобрать задачу. И именно это сейчас становится новой планкой для оценки ИИ.
Почему проблема не только в моделях, но и в измерении?
Индустрия много лет оптимизировалась под ограниченный набор бенчмарков. Модели научились проходить их всё лучше, иногда за счёт узнавания формата, а не реального роста способностей.
Новый тест ломает эту динамику:
– задачи не похожи на тренировочные данные;
– нет «короткого пути» к ответу;
– ошибки выглядят логично, но фатально. Это вскрывает разрыв между оценкой по результату и оценкой по процессу мышления.
Что дальше?
Результат ниже 40% – не тупик, а повод пересобрать измерение.
Сейчас обсуждаются альтернативы: оценка по шагам рассуждения, а не финальному ответу; тесты с интерактивным уточнением условий; симуляции реальных экспертных сценариев вместо статичных задач.Фокус смещается с «правильно/неправильно» к «как модель пришла к выводу».