Arbor — агент, который обошёл Claude Code и Codex в 2,5 раза при том же бюджете: решает архитектура агента

В июне 2026 вышел отчёт про Arbor — фреймворк-агент для автономных исследований от лаборатории RUC-NLPIR (Renmin University), выложенный на GitHub. На шести задачах по оптимизации (обучение моделей, инженерия обвязки, синтез данных) он дал в среднем в 2,5 раза больший прирост, чем Claude Code и Codex. Сравнивали при одном интерфейсе задачи и одном бюджете на вычисления. VentureBeat вынес это в заголовок как «обошёл на том же бюджете».

Arbor — агент, который обошёл Claude Code и Codex в 2,5 раза при том же бюджете: решает архитектура агента

С Claude Code сравнение ещё показательнее: Arbor работал на той же модели — Claude Opus 4.6. Эти 2,5 раза дала не нейросеть, а то, как устроен сам агент вокруг неё.

Почему это важно не только лабораториям

Когда выбирают ИИ-инструмент, спорят обычно про модель: чья нейросеть сейчас умнее. Гонка релизов это подогревает — каждую неделю чья-то модель «берёт бенчмарки». Но в работе мы пользуемся агентом поверх модели: Claude Code, Codex, Qwen Code. Набор базовых механизмов у них похожий: память, работа с файлами, запуск кода, вызов инструментов. По этим возможностям, как я разбирал на примере MiMo Code, топовые агенты уже почти сошлись.

Но собрать из этих кирпичиков можно по-разному, и результат у получившихся агентов выходит разный. Arbor собрал процесс так, что на той же задаче и том же бюджете обошёл остальных в разы. На практике разница видна на выходе: один агент доводит задачу до результата, другой буксует. Поэтому вопрос смещается с «какая нейросеть умнее» на «как устроена работа агента».

Что Arbor делает иначе

Три приёма, и все три — про дисциплину процесса:

  • Дерево гипотез вместо ленты. Агент не теряет прошлые попытки по мере того, как они уезжают из контекста. Что сработало, что провалилось и какой из этого вывод — складывается в дерево, и новые попытки стартуют умнее.
  • Проверка на отложенной выборке. Изменение принимается, только если даёт прирост на данных, которых агент не видел, и прирост выше заданного порога. Агент не верит себе на слово.
  • Изоляция в отдельной ветке. Каждая попытка идёт в своей рабочей копии. Основной код не трогается, пока улучшение не доказано и не влито вручную.

Память, проверка и осторожность с необратимым. По отдельности эти приёмы есть у Claude Code, Codex, Gemini CLI и Qwen, но собрать их в один дисциплинированный контур, который даёт кратный отрыв, пока вышло только у Arbor. Отдельные способности у агентов сближаются, а такая сборка — то новое, чем Arbor пока отличается.

Где включить трезвость

Это отчёт авторов, не независимый аудит. Бенчмарк — шесть задач, набор узкий, метрика одна. Сами авторы признают ограничения: деревья фиксированной глубины и высокая стоимость перебора. Сравнение к тому же неровное: с Codex модели разные (он на GPT-5.5), чистая изоляция обвязки выходит только в паре с Claude Code, где модель одна. «2,5 раза» получены на их стенде и их задачах. Это сигнал тренда, не готовая коробка для малого бизнеса.

И ещё деталь: Arbor — агент для исследовательской оптимизации (обучение моделей, инженерия пайплайнов), не замена кодинг-ассистенту в вашем проекте. Ценность здесь в принципе, который Arbor подсветил.

Что из этого забрать на практике

Принципы переносятся и без Arbor — на любой пайплайн с агентами:

  • Дайте агенту память о прошлых решениях, а не запускайте каждый раз с чистого листа.
  • Не катите результат работы агента в прод по первому «выглядит ок» — проверяйте на заранее отложенных данных.
  • На необратимых шагах (оплата, рассылка клиентам, удаление) держите изоляцию и человека — ровно как в дисциплине workflow, про которую был отдельный разбор.

И это не только теория. Авторы Arbor выложили отдельный набор скиллов для Claude Code и Codex — он даёт вашему агенту методику Arbor (дерево гипотез, изоляцию, дисциплину проверки) без отдельного развёртывания. Сама обвязка важнее инструмента, в котором она живёт.

Вывод

Разница между «дорогой агент почти не помог» и «агент выдал результат» всё чаще лежит в архитектуре процесса вокруг модели. Сама модель — двигатель; результат определяет, как собрана машина целиком.

Когда выбираете агента под задачу, смотрите не на то, на какой он нейросети, а на то, что у него с памятью, проверкой результата и поведением на необратимом шаге. Этот вопрос отсекает красивые демки быстрее любого бенчмарка.

Что из новостей про ИИ-агентов реально работает на практике — пишу в своём канале: @dmitra_ai.

2