Размер больше не главное: как 8B модель переиграла и уничтожила GPT-5 с триллионами параметров

Обзор Orchestrator-8B от NVIDIA.
Обзор Orchestrator-8B от NVIDIA.

NVIDIA придумала новый метод обучения моделей-оркестраторов, которые эффективно вызывают тулзы и LLM для решения любых задач. Метод окзался настолько крут, что на бнчмарках типа Humanity’s Last Exam (HLE) — обогнал GPT-5 (замеряли раньше выхода Gemini 3 и GPT-5.1).

Как сейчас

Сейчас стандартный подход — обучить жирнющую LLM, типа GPT-5 (между прочим на несколько триллинов параметров). Дальше на ее базе делается мультиагентная система. В такой системе основную роль играет жирная LLM с ризонингом и тулы. Модель-менеджер получает просто системный промпт, мол "ты менеджер, вот тулы, вот другие LLM-специалисты, выполняйте задачи от юзера".

В целом, такая система справлялась с задачей, но делала это крайне неэффективо. Например GPT-5 в среднем на задчку из теста авторов статьи тратила 17.8 центов и 13.6 минут. Вроде неплохо..., но это пока не сравили с новым Orchestrator, который потратил всего 9.2 цента и 8.2 минуты на тех же задачах!

Что ж за чудо такое, эта ваша ToolOrchestra

NVIDIA выкатили ToolOrchestra — метод для обучения супер-маленьких (такие модели встанут на ваш ноутбук) моделек-оркестораторов. В отличие от текущего подхода, эти модели обучают через RL (обучение с подкреплением) специально на вызов тулов и других моделей. При этом главными критериями для модели становятся (эти награды были зашиты в процесс обучения модели):

  • точность выполнения задачи юзера
  • эффективность: минимизация траты токенов и времени
  • следование предпочтениям юзера (если юзер сообщал предпочтени, например, чтобы задача решалась без выхода интернет — то использование тулы для поиска в интернете считалось ошибкой)

Таким образом обучили Orchestrator-8B

Малыш оказался настолько мощен, что перебил GPT-5 (в роли оркестратора с промптом по старой схеме) в трех SOTA бенчмарках:

  • Humanity’s Last Exam (HLE) — один из сложнейших бенчей для оценки AGI (Artificial General Intelligence)
  • FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) — замеряет качество RAG систем
  • 𝜏^2 — бенч специально для оценки использования тулов агентами.
Метрики нового Оркестратора стабильно превосходят крупнейшие LLM на топовых бенчмарках.
Метрики нового Оркестратора стабильно превосходят крупнейшие LLM на топовых бенчмарках.

Отдельно — забавная ирония

Проблема, что бесконечно скейлить модели в размерах дорого и неэффективно — очевидная для рынка уже пару лет. Про это постоянно говорит Илья Суцкевер, в том числе в последнем своем интервью (рекомендую к просмотру). Но решением этой проблемы в итоге озаботился ни кто иной, как компания, которая стала самой дорогой в мире именно БЛАГОДАРЯ постоянной гонке скейлинга моделей.

Куда это все идет?

Возможно, нас ждет эпоха все большей специализации моделей со специализированными оркестраторами, когда нам нужно будет выполнить задачу по-настоящему качественно. А большие LLM останутся выполнять роль всезнающего и всеумеющего товарища в повседневной жизни. Как думаете?

З.Ы. для тех, кто воспринимает на слух лучше — для вас сгенерирована видео презентации в стиле каваи (как всегда, по тексту все четко, а визуал — это кек 😁)

Подписывайтесь на Telegram Заместители. Там еще больше интересного и самого важного про ИИ агентов.

Начать дискуссию