GPT-5.4 обошла GPT-5.3-Codex в бенчмарке Cursor

Парочка топовых разработчиков ушла из Cursor сегодня к Маску, но еще вчера они показали свой бенчмарк сравнения кодинговых моделей. Результаты удивили: лучше всего на рынке оказалась GPT-5.4. Модель Opus 4.6 проигрывает даже более мелкой GPT-5.3-Codex как в качестве, так и в потреблении токенов. Gemini 3.1-Pro пока занимает четвертое место.

Подход у них действительно интересный и зрелый.

Выделили три проблемы публичных бенчмарков:

- Alignment – SWE-bench тестирует багфиксинг, Terminal-Bench – паззлы типа "найди лучший ход в шахматах". Это не то, что разработчики реально делают с агентами.
- Оценка – большинство задач допускают множество правильных решений, а бенчмарки ожидают одно конкретное. Либо штрафуют за альтернативный подход, либо добавляют искусственные ограничения.
- Утекание в датасеты – задачи из публичных репозиториев утекают в тренировочные данные. Haiku на некоторых бенчмарках догоняет GPT-5.

Как устроен CursorBench:
Задачи берутся из реальных сессий разработчиков Cursor через Cursor Blame – штуку, которая связывает закоммиченный код с запросом к агенту. Получается естественная пара "запрос - правильное решение".

Ключевые отличия:

Задачи из внутренней кодовой базы – модели их не видели в обучении Описания задач короткие и неточные – как реально разговаривают с агентами, а не как пишут подробные GitHub issues Сложность растёт – CursorBench-3 примерно вдвое больше по строкам кода и количеству файлов, чем первая версия Обновляется раз в несколько месяцев

Текущие задачи решаются в одну сессию. Cursor говорит, что скоро основная работа перейдёт к long-running агентам на собственных машинах – и бенчмарк будет адаптироваться.
Ссылка на блог Cursor:

cursor.com

How we compare model quality in Cursor · Cursor