做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。
TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。
TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。
Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insu…