AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:奖励对比×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
10:37
10:37arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji
TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。
论文强化学习智能体预算分配奖励对比ReAct

推荐理由:做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。
原文
精选全部日报登录