12:09
12:09
arXiv cs.LG@Paul Fergus, Philip Stephens, Russell A. Hill, Lee Oliver, Katie Appleby, Sarah Beatham, Naomi Davies Walsh, Stuart Nixon, Naomi Matthews, Chris Sutherland, Kelly Hitchcock 研究人员发布了一款开源目标检测模型YOLO26x,专门用于识别英国常见的28种哺乳动物和鸟类,以及人类、校准杆和车辆等3个实用类别。该模型基于10年运营部署中收集的48,165个标注实例训练,在验证集上平均精度达到0.984(IoU 0.5),召回率0.965。模型以ONNX格式发布,支持本地桌面和实时摄像头,面向无机器学习经验的生态学家,旨在打破商业平台对相机陷阱AI的垄断。
推荐理由:生态学家和野生动物监测团队终于有了免费、高精度的AI工具,可以直接在本地运行,无需依赖付费平台。做生物多样性研究的建议试试这个模型,能大幅减少手动标注图像的时间。
11:30
11:30
arXiv cs.AI@Yichao Zhong, Yidan Lu, Yuhang Lu, Tianyang Tang, Haoguang Mai, Yixuan Pan, Tianyu Li, Li Chen, Jingbo Wang, Zhongyu Li, Peng Lu, Hongyang Li RoboNaldo 是一种三阶段运动引导课程强化学习框架,旨在解决人形机器人足球射门中的全身稳定性、高冲击力交互和精准度问题。它先用单一人踢参考动作学习稳定踢球先验,再适应固定球位置的任意球场景,最后扩展到移动球射门。在仿真中,RoboNaldo 的任意球射门误差比基线低 48.6%,射门速度提升 2.96 倍。在 Unitree G1 机器人上,从 3 米外射门平均误差为 0.73 米(任意球)和 0.86 米(移动球),触球后球速达 13.10 米/秒,达到职业球员射门速度的 59-71%。该工作为高动态人形机器人运动控制提供了新范式。
推荐理由:做足式机器人运动控制或强化学习的团队,RoboNaldo 的课程学习思路能直接借鉴——用单条参考动作引导复杂技能学习,解决了从仿真到真实部署的精度和速度难题,值得点开看方法细节。
10:37
10:37
arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji TRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。
推荐理由:做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。