Alibaba представила новые модели агентных систем для глубоких исследований

Alibaba/Tongyi представили новую линейку агентных моделей для глубоких исследований и работы в сети: WebWeaver, ReSum и WebSailor-V2. Эти модели демонстрируют разные подходы к долгосрочному планированию, навигации и синтезу информации.

WebWeaver - двойной агент, который строит динамические планы и использует memory-grounded synthesis. Это позволяет перестраивать исследования по мере поступления новых данных и формировать более точные и полные отчеты.

ReSum - модель для долгих сессий, умеет периодически сжимать историю взаимодействий в компактные состояния рассуждений. В сочетании с RL это дает существенный прирост эффективности: +4.5–8.2% по сравнению с ReAct.

WebSailor-V2 - система с двойной средой RL и масштабируемой генерацией синтетических данных. Использует новый алгоритм DUPO, что помогает снижать неопределенность в сложных задачах. На бенчмарках BrowseComp и HLE достигнут уровень SOTA, а на Humanity’s Last Exam модель обходит закрытые аналоги по качеству результатов.

Масштабирование через синтетические данные и работа в двойных средах позволяют WebSailor-V2 сокращать разрыв между открытыми и закрытыми агентами.

Как вы видите, тренды в движении к более комплексным и автономным системам, которые справляются с задачами вроде анализа правовых документов или полноценного исследования в реальном времени.

Подписывайтесь на Telegram Сергей Булаев AI 🤖.

Начать дискуссию