TRACE：面向智能体强化学习的统一 rollout 预算分配框架

精选理由

做智能体强化学习或 RLVR 的团队，TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点，直接用树状分配提升采样效率，值得在自家 agent 训练流程中试试。

AI 摘要

TRACE 提出了一种针对多轮智能体强化学习（RLVR）的 rollout 预算分配框架，解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源，忽略了同一 rollout 中不同回合（turn）前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点，形成树状结构，并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明，在相同采样成本下，TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比，显著提升了多轮智能体任务的训练效率。

AI 翻译 · 中文

arXiv cs.LGReinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insu…

阅读原文