Почему агенты блистают на демо, но сдуваются в реальных задачах

Исследование 30+ учёных из 11 топ‑университетов (UIUC, Стэнфорд, Принстон, Гарвард, Беркли и др.) предлагает внятный ответ: узкое место современных AI‑агентов — их адаптивность.

Агент в понимании авторов — это не просто чат‑модель, а система, которая сама планирует шаги, использует инструменты (поиск, компилятор, БД), ведёт память и способна решать составные задачи. В реальном мире такая система должна подстраиваться: к новой предметной области, другим данным, изменившемуся API или требованиям пользователей. И вот здесь всё ломается.

2×2: четыре парадигмы адаптации агента

Авторы предлагают рассматривать адаптацию по двум осям:

Что мы адаптируем?

самого агента (Agent Adaptation),
или инструменты, которыми он пользуется (Tool Adaptation).

Откуда сигнал обратной связи?

от результата работы инструмента,
или от оценки финального вывода агента.

Получается 4 квадранта:

A1 — агент учится по сигналу от инструментовПример: модель смотрит, компилируется ли сгенерированный код, корректен ли поиск, и корректирует свою стратегию использования инструментов.
A2 — агент учится по оценке финального ответаКлассический RL для усиления умения рассуждать (как в DeepSeek‑R1): награда начисляется за правильный итоговый ответ, а не за каждый шаг.
T1 — «готовые» инструменты, которые агент просто вызываетВсе привычные SAM, CLIP и прочие предобученные модели: они не подстраиваются под конкретного агента, а работают как универсальные модули.
T2 — инструменты учатся по сигналу от агентаАгент остаётся замороженным, а дообучаются вспомогательные под‑агенты/сервисы, чтобы лучше под него «подстроиться» — получается своеобразная симбиоз‑адаптация.

Такое разложение помогает:

целенаправленно выбирать стратегию:нужно улучшить умение пользоваться инструментом — смотрим в A1/T2;хотим прокачать общую логику — A2;ищем максимально универсальные модули — T1.
понимать компромиссы:изменение самого LLM (A1/A2) гибко, но дорого (ресурсоёмкое обучение);адаптация инструментов (T1/T2) дешевле, но ограничена исходными возможностями базовой модели.

Почему T2 часто выгоднее, чем «чистый RL по агенту»

Важное эмпирическое наблюдение из работы: T2‑подход может быть куда эффективнее, чем A2.

На задаче поиск+Генерация (RAG):

A2‑подход (Search‑R1):требуется ~170 000 примеров для end‑to‑end RL по агенту.
T2‑подход:базовая модель заморожена, дообучается небольшой поисковый под‑агент;достаточно ~2400 примеров — в 70 раз меньше;обучение — в 33 раза быстрее, при этом качество сопоставимо или выше.

На медицинских вопросах T2‑система показала 76,6% точности против 71,8% у A2. Объяснение простое: A2 заставляет модель одновременно учить три вещи — доменную экспертизу, использование инструмента и логику решения задачи. Пространство оптимизации взрывается. В T2‑режиме крупная LLM уже умеет «знать и рассуждать», а маленький модуль доучивает лишь одно — «как правильно искать».

Четыре направления, без которых агенты останутся «демо‑игрушками»

Авторы выделяют четыре фронтира, от которых зависит, станут ли агенты реально полезными.

Совместная адаптация (Co‑Adaptation)Идеальный сценарий — когда и агент, и инструменты одновременно подстраиваются друг под друга в одном цикле обучения. Но это рождает проблему кредитного распределения: если задача провалена, кто виноват — ядро‑агент, поисковый модуль или, скажем, планировщик? Без решения этой задачи сложно строить устойчивые системы.
Непрерывная адаптация (Continual Adaptation)Реальный мир нестабилен:

меняются API и форматы данных,
обновляются инструменты,
эволюционируют запросы пользователей.

Нужны агенты, которые умеют учиться на ходу, не забывая старое, то есть решать проблему катастрофического забывания в динамичной среде, а не на статичном датасете.

Безопасная адаптация (Safe Adaptation)Один из тревожных выводов: усиливая модели через RL по рассуждениям, мы можем подрывать ранее встроенные меры безопасности. Модель начинает придумывать сложные логические «обоснования» для вредоносного поведения и становится более уязвимой к джейлбрейкам. Значит, адаптация должна проектироваться так, чтобы безопасность не размывалась, а усиливалась.
Эффективная адаптация (Efficient Adaptation)В условиях ограниченных ресурсов (облако с лимитами, edge‑устройства, локальные инсталляции) критичны:

лёгкие методы дообучения (LoRA в RL‑настройке),
оптимизации наподобие FlashRL,
компактные персонализированные модели на клиенте.

Без этого агенты останутся привилегией крупных центров обработки данных и так и не дойдут до массовой практики.

Что это даёт разработчикам агентов

Практический вывод обзора: провалы агентов в проде — не случайность, а следствие отсутствия системного подхода к адаптивности. Вместо бесконечных демо с жёстко прописанными сценариями стоит:

осознанно выбирать парадигму (A1/A2/T1/T2) под конкретную задачу и ограничения,
минимизировать переобучение базовой LLM там, где можно обойтись настройкой инструментов,
сразу проектировать системы для непрерывного, безопасного и эффективного дообучения.

Иначе агент так и останется «драконом на демо и червём в бою» — впечатляющим в презентации и беспомощным в настоящей, изменчивой среде.