OpenAI перестала использовать бенчмарк SWE-bench — ИИ-модели запоминали решения некоторых практических задач, которые видели на GitHub

Модель GPT‑5.2 решала 80% задач этого набора тестов.

OpenAI объявила, что больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО.
Компания заметила, что после первых «скачков» прогресс показателей замедлился. GPT‑5.1 Thinking решала 76,3% задач теста, а результат GPT‑5.2 Thinking улучшился только до 80%.
Разработчики провели аудит бенчмарка и выявили, что 59,4% оставшихся «самых сложных» задач прописаны некорректно — тесты не учитывают альтернативные правильные решения или содержат ошибки.
Параллельно компания обнаружила, что «все модели» видели по крайней мере некоторые задачи и методы их решения в репозиториях с открытым исходным кодом, потому что эти же репозитории используют для обучения нейросетей.
SWE-bench Verified — набор тестов, который OpenAI сама разработала для оценки навыков программирования ChatGPT в 2024 году.