Anthropic выпустила новое поколение гибридных языковых моделей — Claude Sonnet 4 и «лучшую в мире модель для программирования» Claude Opus 4
Они могут отвечать в двух режимах: с «рассуждениями», но дольше, или же без них, зато «практически моментально».
- Claude Opus 4 — «самая мощная» модель из вышедших у Anthropic, а также «лучшая в мире модель для работы с кодом», рассказал стартап. Она «превосходно» справляется с программированием и решением сложных задач, что пригодится разработчикам ИИ-агентов: особенно если модель должна работать на протяжении «нескольких часов» и выполнять «тысячи шагов».
- При тестировании на бенчмарках SWE-Bench Verified и Terminal-Bench модель Claude Opus 4 показала производительность на уровне 72,5% и 43,2% соответственно. Выше, чем у o3 и GPT-4.1 от OpenAI и Gemini 2.5 Pro от Google.
- Claude Sonnet 4 уступает Opus 4 в «большинстве направлений», но превосходит свою предшественницу Sonnet 3.7 и демонстрирует «передовую» производительность при работе над повседневными задачами. Её показатель в тестах на бенчмарке SWE-Bench Verified — 72,7%.
- GitHub возьмёт Sonnet 4 за основу для своего нового кодингового агента в GitHub Copilot.
Сравнение моделей на разных бенчмарках. Источник: Anthropic
- Новые модели лучше предшественниц справляются с запуском нескольких инструментов одновременно и запоминанием, точнее следуют пользовательским инструкциям и могут использовать разные инструменты (например поиск по интернету) в том числе во время «рассуждений».
Claude Opus 4 играет в Pokemon. Источник: Anthropic
- Владельцы подписок Pro, Max, Team и Enterprise получат доступ к обеим моделям. Пользователи бесплатного плана — к Claude Sonnet 4.
- Обе модели также добавили в Amazon Bedrock, Vertex AI в Google Cloud и API самой Anthropic. 1 млн «входных» токенов обойдётся в $15 для Opus 4 и в $3 для Sonnet 4. 1 млн «выходных» — в $75 и $15 соответственно.
49 комментариев