Claude Opus 4.8 обгоняет GPT-5.5, улучшенные результаты и тестирование
Вышла Claude Opus 4.8. Модель обгоняет GPT-5.5 почти во всех бенчмарках, лучше работает с длинными запросами и в 4 раза чаще замечает свои ошибки.
В бенчмарке SWE Pro на Agentic coding модель набрала почти рекордные 69,2%. В тесте Humanity's Last Exam результат 57,9%.
Anthropic пишут, что Opus теперь возражает при бессмысленных планах — в теории, она может отказаться выполнять глупые запросы.
Уже доступна для теста: https://claude.ai/new
Подписывайтесь на Telegram Тайпспейс Медиа.