Рой из пяти агентов проиграл одному. И обошёлся в 10 раз дороже

Вчера я считал, во что мне обойдутся AI-агенты после завтрашней реформы биллинга Claude. А сегодня вышло исследование, которое объясняет, почему половина этих агентов мне вообще не нужна.

Свежая работа «The Illusion of Multi-Agent Advantage» (arXiv, 11 июня) проверила то, что последний год продают как новую норму: мол, один агент это вчерашний день, будущее за роем агентов, которые делят задачу между собой. Звучит логично. Каждый занят своим куском, работают параллельно, контексты не путаются. Красиво на слайде.

А теперь цифра. Авто-сгенерированные мультиагентные системы в этом исследовании стабильно проигрывали одному агенту. Не на пару процентов. И при этом стоили до десяти раз дороже.

Разберём, почему так вышло, и главное, как понять, нужен ли рой агентов лично вам, до того как вы за него заплатите.

Авторы взяли не игрушечные задачки, а две группы: классические reasoning-датасеты и интерактивные многошаговые сценарии вроде BrowseComp-Plus, где агент реально ходит по шагам, ищет, собирает информацию. Ровно то, где мультиагент должен блистать.

С одной стороны ринга мультиагентные системы, которые собираются автоматически. Это сейчас модный подход: ты описываешь задачу, а фреймворк сам решает, сколько завести агентов, кто за что отвечает, как они обмениваются данными. Обещание в том, что такая авто-сборка лучше переносится на новые задачи, чем когда архитектуру руками рисует инженер.

С другой стороны простой одиночный агент. Не голый, а с двумя честными приёмами: Chain-of-Thought (рассуждай вслух, по шагам) и Self-Consistency (прогони несколько вариантов рассуждения и возьми то, в чём сошлось большинство). Никакого роя. Один агент, который думает аккуратно и перепроверяет себя.

Результат: одиночка обошёл рой. И сделал это дешевле в разы.

Самое интересное в работе не сам факт, а вскрытие. Авторы разобрали авто-сгенерированные архитектуры по винтикам и увидели одну общую болезнь. Они назвали её красиво: architectural bloat. По-русски, архитектурная раздутость.

Система плодит агентов и связи между ними, потому что так задумано. Больше агентов выглядит как больше ума. Но эта сложность поверхностная. Она не превращается в пользу. Лишний агент это не лишняя голова в команде, это лишний созвон, лишний пересказ задачи и лишний шанс, что кто-то что-то переврал по дороге.

Каждый агент это отдельный вызов модели. Отдельные токены на вход, отдельные токены на выход, отдельный контекст, который надо ему пересказать. Пять агентов вместо одного это не в пять раз умнее. Это гарантированно в несколько раз дороже, а умнее, как выяснилось, далеко не факт.

Тут важно не уйти в другую крайность. Исследование не говорит «мультиагент это плохо, никогда так не делайте». Оно говорит более тонкую вещь, и вот она ключевая.

Чтобы отделить провал авто-сборки от провала самой идеи, авторы собрали отдельный диагностический датасет. Задачи в нём специально устроены так, что мультиагент тут уместен: есть явная декомпозиция на независимые куски, есть смысл разделять контексты, есть реальная возможность считать параллельно.

И на этих задачах экспертно спроектированная мультиагентная система обошла авто-сгенерированную. И по качеству, и по цене. То есть проблема не в количестве агентов как таковом. Проблема в том, что архитектуру нарисовали бездумно, ради сложности, а не под задачу.

Вывод, если совсем коротко: выигрывает не число агентов, а архитектура. Один продуманный агент бьёт раздутый рой. Продуманный рой бьёт одинокого агента. А вот рой, собранный наугад, ради галочки «у нас мультиагентность», проигрывает всем и стоит дороже всех.

Это не одинокий академический выпад. Месяц назад Сбер выкатил огромный whitepaper «AI-Disrupt PDLC» про переход на агентную разработку. Там есть тихая, но важная цифра из их реальной телеметрии: мультиагентные архитектуры потребляют примерно в пятнадцать раз больше токенов, чем классический чат-режим.

В пятнадцать. И поэтому Сбер прямым текстом пишет про обязательные FinOps-предохранители, то есть про защиту от ситуации, когда агенты зациклились и сожгли бюджет, пока никто не смотрел.

Сложите две вещи. Академики показали, что раздутый рой проигрывает по качеству. Корпорация с реальным продом показала, что он сжигает в пятнадцать раз больше токенов. Это не два разных сюжета. Это один и тот же счёт, который вам выставят.

Завтра, 15 июня, у Claude вступает в силу реформа биллинга. Агентские сценарии (Agent SDK, запуск через claude -p, Claude Code в GitHub Actions, сторонние агенты поверх SDK) уходят из общего подписочного пула в отдельный платный кредит. Считаться будут по API-ценам.

Интерактивная работа (чат, Cowork, Claude Code в терминале руками) остаётся как была. Но всё, что крутится автономно в фоне, теперь видно в счёте отдельной строкой.

И вот тут красота момента. Ещё неделю назад лишний агент в вашей схеме был невидимой роскошью: ну работает и работает, подписка же фиксированная. С завтрашнего дня каждый лишний агент это конкретные деньги. Раздутость, которую раньше можно было не замечать, превращается в ежемесячный платёж.

Так что исследование вышло не просто вовремя. Оно вышло ровно за день до того, как за архитектурную раздутость начнут брать деньги.

Не нужно быть инженером, чтобы понять, разумна ли ваша агентная схема. Перед тем как строить рой агентов или соглашаться на него у подрядчика, прогоните задачу через три вопроса. Их подсказывает сам диагностический датасет из исследования.

Первый. Задача реально делится на независимые куски? Не «можно притянуть за уши», а действительно распадается на части, которые не зависят друг от друга. Если по сути это одна сквозная задача, рой только добавит пересказов и ошибок.

Второй. Контексты реально надо разделять? Иногда у разных подзадач настолько разная информация, что мешать их в одной голове вредно. Тогда отдельные агенты оправданы. А иногда вы просто режете единый контекст и потом мучаетесь, сшивая его обратно.

Третий. Куски реально считаются параллельно? Если агенты всё равно ждут друг друга в очереди, вы заплатили за пятерых, а скорость как у одного. Параллельность должна быть настоящей, а не на бумаге.

Если хотя бы на один вопрос ответ «нет», скорее всего вам хватит одного агента. С хорошим промптом, с рассуждением по шагам и с самопроверкой. Он будет и дешевле, и, как показало исследование, нередко умнее.

Мы привыкли мерить AI не теми линейками. Сначала меряли мощностью модели: чья больше, тот и победил. Потом числом интеграций. Теперь модно мерить сложностью архитектуры: у кого больше агентов и связей, тот круче.

Все три линейки врут. Мощная модель в кривой обвязке буксует. Десять интеграций, которыми никто не пользуется, это десять точек отказа. И рой из пяти агентов, собранный ради вида, проигрывает одному, собранному с умом.

Правильная линейка одна: польза на единицу затрат. Сколько реальной работы вы получаете на потраченный токен. И с завтрашнего биллинга эта линейка перестаёт быть абстракцией, она становится строкой в вашем счёте.

Так что прежде чем заказывать или строить мультиагентную систему, задайте себе и подрядчику простой вопрос. Это декомпозиция задачи или маскировка под умное? Если второе, вы платите за сложность, которая не превращается в пользу. А теперь ещё и платите по API-ценам.

Сложность это не доблесть. Доблесть это когда результат тот же или лучше, а агентов и токенов в разы меньше.

Источники: arXiv 2606.13003 «The Illusion of Multi-Agent Advantage» (11.06.2026); Сбер «AI-Disrupt PDLC» (разбор на Хабре, май 2026); анонс Anthropic о реформе биллинга от 14.05.2026 (вступает в силу 15.06).

Больше разборов AI для бизнеса - в Telegram: https://t.me/gorilla_under_hood

Рой из пяти агентов проиграл одному. И обошёлся в 10 раз дороже

Что именно сравнивали

Почему рой проиграл

Где мультиагент всё-таки выигрывает

Сбер про то же самое, только из прода

И тут очень вовремя меняется биллинг

Три вопроса, которые экономят вам деньги

Что это значит для бизнеса