OpenAI перестала использовать бенчмарк SWE-bench — ИИ-модели запоминали решения некоторых практических задач, которые видели на GitHub

Модель GPT‑5.2 решала 80% задач этого набора тестов.

Рейтинг моделей по проценту решенных задач в SWE-bench Verified. Источник: llm stats
Рейтинг моделей по проценту решенных задач в SWE-bench Verified. Источник: llm stats
  • OpenAI объявила, что больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО.

  • Компания заметила, что после первых «скачков» прогресс показателей замедлился. GPT‑5.1 Thinking решала 76,3% задач теста, а результат GPT‑5.2 Thinking улучшился только до 80%.

  • Разработчики провели аудит бенчмарка и выявили, что 59,4% оставшихся «самых сложных» задач прописаны некорректно — тесты не учитывают альтернативные правильные решения или содержат ошибки.

  • Параллельно компания обнаружила, что «все модели» видели по крайней мере некоторые задачи и методы их решения в репозиториях с открытым исходным кодом, потому что эти же репозитории используют для обучения нейросетей.

  • SWE-bench Verified — набор тестов, который OpenAI сама разработала для оценки навыков программирования ChatGPT в 2024 году.

5
6 комментариев