Новая рамочная система обучения с подкреплением помогает обучать агентов LLM для сложных задач в реальном мире
VentureBeat сообщает, что исследователи разработали Agent-R1 — фреймворк обучения с подкреплением, предназначенный для обучения больших языковых моделей решению сложных многоходовых интерактивных задач, выходящих за рамки четко определенных областей, таких как математика и программирование.
Фреймворк решает распространенную проблему «разреженного вознаграждения» в обучении с подкреплением, предоставляя промежуточные процессные вознаграждения на каждом шаге, а не единственное финальное вознаграждение, используя модульные компоненты Tool и ToolEnv для управления действиями и интерпретации обратной связи от среды.
При тестировании на бенчмарках для ответов на вопросы с множественными переходами, включая HotpotQA — набор данных, содержащий 113 000 вопросов на основе Википедии, требующих рассуждений по нескольким документам, — агенты, обученные с использованием алгоритма GRPO, показали лучшую общую производительность, значительно превосходя стандартные базовые методы поиска и вызова инструментов.