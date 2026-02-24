OpenAI объявила, что больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО.

Компания заметила, что после первых «скачков» прогресс показателей замедлился. GPT‑5.1 Thinking решала 76,3% задач теста, а результат GPT‑5.2 Thinking улучшился только до 80%.

Разработчики провели аудит бенчмарка и выявили, что 59,4% оставшихся «самых сложных» задач прописаны некорректно — тесты не учитывают альтернативные правильные решения или содержат ошибки.

Параллельно компания обнаружила, что «все модели» видели по крайней мере некоторые задачи и методы их решения в репозиториях с открытым исходным кодом, потому что эти же репозитории используют для обучения нейросетей.