Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня

ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?

Сравнение, как люди‑эксперты и не‑эксперты отвечают на очень сложные вопросы по биологии, физике и химии. Источник

🟢 Еще больше полезной информации о продуктах и технологиях — в моем канале

Речь идёт о новом бенчмарке, созданном для проверки глубоких экспертных навыков, а не общей эрудиции. В отличие от привычных тестов, здесь недостаточно узнать шаблон или вспомнить факт.

GPQA — это тест на экспертное рассуждение, а не на общую эрудицию. Он состоит примерно из 450 вопросов уровня аспирантуры (PhD) в областях физики, химии и биологии. Все вопросы были составлены и проверены предметными экспертами, а не сгенерированы автоматически, что принципиально отличает его от многих других бенчмарков.

Ключевая особенность теста в том, что вопросы невозможно решить с помощью поиска или поверхностного знания. В формулировках нет прямых подсказок, а для правильного ответа часто требуется многошаговое рассуждение, работа с допущениями и понимание фундаментальных принципов, а не узнавание знакомых паттернов.

Методика измерения простая по форме, но жёсткая по сути. Вопросы представлены в формате выбора одного правильного ответа. Результаты сравниваются между разными группами — экспертами-людьми, студентами и ведущими языковыми моделями. Оценка строится по доле правильных ответов, без подсказок, интерактивных уточнений или возможности «дорассуждать» в диалоге.

Тест GPQA разработан и проведён исследователями из Google DeepMind совместно с академическими экспертами (включая PhD-уровень специалистов), которые сами формировали и проверяли вопросы.

Задачи требуют многошагового рассуждения, работы с неопределённостью, выбора допущений и проверки собственных выводов. Ровно того, что делают эксперты в реальных условиях.

Результат оказался неожиданным: ни одна из ведущих моделей не превысила 40% правильных ответов. Для теста, рассчитанного на высокий порог, это и было задумано, но цифра всё равно бросается в глаза.

GPQA специально спроектирован так, чтобы отделить знание фактов и умение угадывать от глубокого понимания и реального экспертного мышления.

Тест считается сложным даже для людей: хорошо подготовленные специалисты не показывают в нём результатов на уровне 90% и выше.

Важно понимать, где именно модели «ломаются»:

- они хорошо стартуют, но теряют нить в длинных цепочках рассуждений;
- уверенно выбирают один из вариантов, когда нужно сначала уточнить условия;
- дают правдоподобный ответ там, где требуется аккуратная проверка предпосылок.

Схема исследования. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2311.12022&postId=2715060" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Менее 40% – это не «меньше половины вопросов вообще», а меньше половины задач, которые сами авторы теста считают принципиально сложными даже для подготовленного человека.

Эксперты сразу предостерегают от простой интерпретации. Это не значит, что: ИИ «стал хуже»; модели бесполезны в работе; предыдущие успехи были иллюзией.

И это действительно значит, что:

– текущие модели плохо справляются с задачами, где нужно долго удерживать контекст и сомневаться;

– уверенный ответ не равен глубокому пониманию;

– привычные метрики завышают ощущение «умности» ИИ.

Проще говоря, тест измеряет не скорость и гладкость ответа, а способность не отвечать слишком рано.

Насколько важно для качества ответа не отвечать рано, пришли к выводу в другом исследовании, читайте тут.

Этот тест не доказывает, что ИИ «плох». Он показывает, что наши ожидания и метрики долго были слишком простыми. Менее 40% — это не провал моделей, а напоминание: экспертное мышление — это не знание ответа, а умение вовремя остановиться, уточнить и пересобрать задачу. И именно это сейчас становится новой планкой для оценки ИИ.

Индустрия много лет оптимизировалась под ограниченный набор бенчмарков. Модели научились проходить их всё лучше, иногда за счёт узнавания формата, а не реального роста способностей.

Новый тест ломает эту динамику:

– задачи не похожи на тренировочные данные;

– нет «короткого пути» к ответу;

– ошибки выглядят логично, но фатально. Это вскрывает разрыв между оценкой по результату и оценкой по процессу мышления.

Результат ниже 40% – не тупик, а повод пересобрать измерение.

Сейчас обсуждаются альтернативы: оценка по шагам рассуждения, а не финальному ответу; тесты с интерактивным уточнением условий; симуляции реальных экспертных сценариев вместо статичных задач.Фокус смещается с «правильно/неправильно» к «как модель пришла к выводу».

Наташа Хазеева

10 янв

Цена удобства: как ИИ бьет по критическому мышлению

Мы привыкли, что ИИ экономит время: пишет, суммирует, подсказывает решения. Но у удобства есть скрытая цена: мы всё чаще выгружаем наружу память, поиск и даже оценку аргументов (да что там, новые ИИ гаджеты прямо позиционируют себя как «вторую память»). Исследование связывает частое использование ИИ-инструментов с ростом когнитивной разгрузки и сни…

#искусственныйинтеллект #ai #llm #исследования #технологии #наука #бенчмарки #машинноеобучение

Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня

Что это за тест и зачем он нужен

Что именно показал тест?

Как трактовать результат, и как не трактовать

Почему проблема не только в моделях, но и в измерении?

Что дальше?

Пожалуйста, поддержите меня, поставьте лайк! 🙏