Почему агенты блистают на демо, но сдуваются в реальных задачах
Исследование 30+ учёных из 11 топ‑университетов (UIUC, Стэнфорд, Принстон, Гарвард, Беркли и др.) предлагает внятный ответ: узкое место современных AI‑агентов — их адаптивность.
Агент в понимании авторов — это не просто чат‑модель, а система, которая сама планирует шаги, использует инструменты (поиск, компилятор, БД), ведёт память и способна решать составные задачи. В реальном мире такая система должна подстраиваться: к новой предметной области, другим данным, изменившемуся API или требованиям пользователей. И вот здесь всё ломается.
2×2: четыре парадигмы адаптации агента
Авторы предлагают рассматривать адаптацию по двум осям:
- Что мы адаптируем?
- самого агента (Agent Adaptation),
- или инструменты, которыми он пользуется (Tool Adaptation).
- Откуда сигнал обратной связи?
- от результата работы инструмента,
- или от оценки финального вывода агента.
Получается 4 квадранта:
- A1 — агент учится по сигналу от инструментовПример: модель смотрит, компилируется ли сгенерированный код, корректен ли поиск, и корректирует свою стратегию использования инструментов.
- A2 — агент учится по оценке финального ответаКлассический RL для усиления умения рассуждать (как в DeepSeek‑R1): награда начисляется за правильный итоговый ответ, а не за каждый шаг.
- T1 — «готовые» инструменты, которые агент просто вызываетВсе привычные SAM, CLIP и прочие предобученные модели: они не подстраиваются под конкретного агента, а работают как универсальные модули.
- T2 — инструменты учатся по сигналу от агентаАгент остаётся замороженным, а дообучаются вспомогательные под‑агенты/сервисы, чтобы лучше под него «подстроиться» — получается своеобразная симбиоз‑адаптация.
Такое разложение помогает:
- целенаправленно выбирать стратегию:нужно улучшить умение пользоваться инструментом — смотрим в A1/T2;хотим прокачать общую логику — A2;ищем максимально универсальные модули — T1.
- понимать компромиссы:изменение самого LLM (A1/A2) гибко, но дорого (ресурсоёмкое обучение);адаптация инструментов (T1/T2) дешевле, но ограничена исходными возможностями базовой модели.
Почему T2 часто выгоднее, чем «чистый RL по агенту»
Важное эмпирическое наблюдение из работы: T2‑подход может быть куда эффективнее, чем A2.
На задаче поиск+Генерация (RAG):
- A2‑подход (Search‑R1):требуется ~170 000 примеров для end‑to‑end RL по агенту.
- T2‑подход:базовая модель заморожена, дообучается небольшой поисковый под‑агент;достаточно ~2400 примеров — в 70 раз меньше;обучение — в 33 раза быстрее, при этом качество сопоставимо или выше.
На медицинских вопросах T2‑система показала 76,6% точности против 71,8% у A2. Объяснение простое: A2 заставляет модель одновременно учить три вещи — доменную экспертизу, использование инструмента и логику решения задачи. Пространство оптимизации взрывается. В T2‑режиме крупная LLM уже умеет «знать и рассуждать», а маленький модуль доучивает лишь одно — «как правильно искать».
Четыре направления, без которых агенты останутся «демо‑игрушками»
Авторы выделяют четыре фронтира, от которых зависит, станут ли агенты реально полезными.
- Совместная адаптация (Co‑Adaptation)Идеальный сценарий — когда и агент, и инструменты одновременно подстраиваются друг под друга в одном цикле обучения. Но это рождает проблему кредитного распределения: если задача провалена, кто виноват — ядро‑агент, поисковый модуль или, скажем, планировщик? Без решения этой задачи сложно строить устойчивые системы.
- Непрерывная адаптация (Continual Adaptation)Реальный мир нестабилен:
- меняются API и форматы данных,
- обновляются инструменты,
- эволюционируют запросы пользователей.
Нужны агенты, которые умеют учиться на ходу, не забывая старое, то есть решать проблему катастрофического забывания в динамичной среде, а не на статичном датасете.
- Безопасная адаптация (Safe Adaptation)Один из тревожных выводов: усиливая модели через RL по рассуждениям, мы можем подрывать ранее встроенные меры безопасности. Модель начинает придумывать сложные логические «обоснования» для вредоносного поведения и становится более уязвимой к джейлбрейкам. Значит, адаптация должна проектироваться так, чтобы безопасность не размывалась, а усиливалась.
- Эффективная адаптация (Efficient Adaptation)В условиях ограниченных ресурсов (облако с лимитами, edge‑устройства, локальные инсталляции) критичны:
- лёгкие методы дообучения (LoRA в RL‑настройке),
- оптимизации наподобие FlashRL,
- компактные персонализированные модели на клиенте.
Без этого агенты останутся привилегией крупных центров обработки данных и так и не дойдут до массовой практики.
Что это даёт разработчикам агентов
Практический вывод обзора: провалы агентов в проде — не случайность, а следствие отсутствия системного подхода к адаптивности. Вместо бесконечных демо с жёстко прописанными сценариями стоит:
- осознанно выбирать парадигму (A1/A2/T1/T2) под конкретную задачу и ограничения,
- минимизировать переобучение базовой LLM там, где можно обойтись настройкой инструментов,
- сразу проектировать системы для непрерывного, безопасного и эффективного дообучения.
Иначе агент так и останется «драконом на демо и червём в бою» — впечатляющим в презентации и беспомощным в настоящей, изменчивой среде.