11:30
11:30
arXiv cs.AI@Yichao Zhong, Yidan Lu, Yuhang Lu, Tianyang Tang, Haoguang Mai, Yixuan Pan, Tianyu Li, Li Chen, Jingbo Wang, Zhongyu Li, Peng Lu, Hongyang Li RoboNaldo 是一种三阶段运动引导课程强化学习框架,旨在解决人形机器人足球射门中的全身稳定性、高冲击力交互和精准度问题。它先用单一人踢参考动作学习稳定踢球先验,再适应固定球位置的任意球场景,最后扩展到移动球射门。在仿真中,RoboNaldo 的任意球射门误差比基线低 48.6%,射门速度提升 2.96 倍。在 Unitree G1 机器人上,从 3 米外射门平均误差为 0.73 米(任意球)和 0.86 米(移动球),触球后球速达 13.10 米/秒,达到职业球员射门速度的 59-71%。该工作为高动态人形机器人运动控制提供了新范式。
推荐理由:做足式机器人运动控制或强化学习的团队,RoboNaldo 的课程学习思路能直接借鉴——用单条参考动作引导复杂技能学习,解决了从仿真到真实部署的精度和速度难题,值得点开看方法细节。
10:37
10:37
arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。
推荐理由:做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。