Математики запустили "Первый эксперимент доказательства": проверка ИИ на задачах исследований

11 топовых математиков, включая Филдсовского лауреата Мартина Хайрера, выпустили 10 вопросов из своих исследований. Это тест без подсказок из сети — ответы раскроют 13 февраля. Ранние прогоны GPT и Gemini уже провалились.

6 февраля на arXiv вышла статья о проекте "First Proof". Команда из Stanford, Harvard, Yale, UC Berkeley и других вузов поделилась вопросами, которые возникли в их реальной работе: алгебраическая комбинаторика, спектральная теория графов, топология, стохастический анализ, симплектическая геометрия и численный линейный анализ. Каждое решение занимает до 5 страниц доказательства. Ответы зашифрованы на сайте 1stproof.org.

В отличие от FrontierMath (от OpenAI) с автоматической проверкой, здесь вопросы никогда не публиковались в интернете. Команда подчёркивает независимость: никакого финансирования или консультаций от ИИ-гигантов. Запуск приурочен к e-Day 7 февраля — дню числа Эйлера. Название от выпечки: "first proof" — это первая ферментация теста перед формой хлеба.

Мартин Хайрер написал в LinkedIn, что даже топ-модели за одну попытку не справляются с большинством задач. Хэштег #1stProof уже набирает популярность.

Перед публикацией протестировали GPT-5.2 Pro и Gemini 3.0 Deepthink. При одной попытке тестирования без итераций модели провалили большинство вопросов. ИИ силён в расчётах примеров и генерации гипотез, но слабо понимает контекст настоящих исследований. Это сигнал: ИИ ускоряет рутину, но не заменяет докторов наук в исследованиях и разработках.

Все желающие могут протестировать модели и поделиться результатами. 13 февраля раскроют ответы. Проект обещает вырасти в полноценный бенчмарк с новыми вопросами и стандартами оценки. ИИ эволюционирует быстро — следите за обновлениями.

А впечатление такое, что математики очень боятся: вдруг по факту ИИ уже умнее их? Натренируют модели на их же работах — и Филдсовские премии уйдут в дата-центры. Шучу, конечно. А может и нет...

Математики запустили "Первый эксперимент доказательства": проверка ИИ на задачах исследований

Что такое "First Proof"?

Чем отличается от обычных бенчмарков

Результаты ранних тестов

Что будет дальше

Ирония в финале