Claude Opus 4.8 обгоняет GPT-5.5, улучшенные результаты и тестирование

Вышла Claude Opus 4.8. Модель обгоняет GPT-5.5 почти во всех бенчмарках, лучше работает с длинными запросами и в 4 раза чаще замечает свои ошибки.

В бенчмарке SWE Pro на Agentic coding модель набрала почти рекордные 69,2%. В тесте Humanity's Last Exam результат 57,9%.

Anthropic пишут, что Opus теперь возражает при бессмысленных планах — в теории, она может отказаться выполнять глупые запросы.

Уже доступна для теста: https://claude.ai/new

Подписывайтесь на Telegram Тайпспейс Медиа.