TRACE:面向智能体强化学习的统一 rollout 预算分配框架

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

精选理由

做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。

AI 摘要

TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。

AI 翻译 · 中文

TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。

arXiv cs.LGReinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insu