🥀GPT-5.2 и бессмысленные бенчмарки
Исследователь ИИ Мария Сухарева утверждает в своём Substack, что результаты бенчмарков GPT-5.2 от OpenAI—включая 100% на AIME 2025 и 52,9% на ARC-AGI-2—бессмысленны без прозрачности относительно обучающих данных и архитектуры модели, называя их «неподтверждёнными цифрами» в эпоху, когда «компании получают миллиарды» за такие заявления.
Статья демонстрирует, что каждый из трёх выделенных бенчмарков GPT-5.2 можно обыграть: 30 математических задач AIME 2025 публично доступны онлайн, дообученная модель Qwen с 4 миллиардами параметров достигла 27,64% на ARC-AGI-2 (что помещает её рядом с результатом GPT-5.2 в таблице лидеров), а GDPval был создан самой OpenAI и «практически приглашает» к оптимизации с помощью обучения с подкреплением.
Успех команды NVARC от Nvidia в достижении 27,64% на ARC-AGI-2 с их дообученной малой моделью всего за 20 центов за задачу подчёркивает уязвимость к дообучению, в то время как сама организация ARC Prize теперь признаёт, что даже хорошо разработанные бенчмарки «теперь могут быть ‘переобучены’», когда публичные и приватные тестовые наборы имеют схожие паттерны.
ССЫЛКИ: