10:58
10:58
arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna 多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。
推荐理由:空间推理是多模态模型的短板,IPT 提供了一种不依赖文本思维链的监督方式,做视觉推理或空间理解的团队可以直接参考论文方法。
10:57
10:57
arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi 研究团队提出 Humanoid-GPT,一种基于 GPT 风格的因果注意力 Transformer,在 20 亿帧的运动数据上预训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同,Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量,该模型能够追踪高度动态的行为,并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明,Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。
推荐理由:做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练,直接解决了以往模型在动态场景下泛化差的问题,做仿人机器人或动画生成的开发者值得关注。
10:47
10:47
arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang 现有基于评分标准的强化学习(RL)方法将查询分布视为固定,导致开放查询产生模糊评分标准,而狭窄查询又引入无法验证的参考,使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题,并利用对比评分生成和可学习性过滤,保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上,QUBRIC相比SFT基线提升5.5分,且仅用指令跟随数据训练后,在三个未见基准(法律、道德、叙事推理)上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。
推荐理由:QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配,做RL训练或AI对齐的团队可以直接参考其方法,提升模型在开放推理任务上的表现。
10:45
10:45
arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang 当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。
推荐理由:做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。
10:31
10:31
arXiv: DeepSeek@Sidi Yang, Chaofan Tao, Jierun Chen, Tiezheng Yu, Ruoyu Wang, Yuxin Jiang, Yiming Du, Wendong Xu, Jing Xiong, Taiqiang Wu, Lifeng Shang, Xiaohui Li, Ngai Wong, Haoli Bai 一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线,将多领域真实问题转化为可验证的智能体任务。实验发现,尽管Claude Opus 4.6在基准测试中得分更高,但用DeepSeek-V3.2(得分较低)的轨迹微调的学生模型,泛化能力反而更强。这种“教学悖论”归因于环境监督(EGS):暴露“检查-行动-验证”行为的轨迹,能让学生学到稳健的问题解决模式。仅用1.53万条轨迹,Qwen3-32B就达到了此前需要30倍数据量的SOTA水平,表明智能体后训练的关键在于“环境交互结构设计”。
推荐理由:这篇论文推翻了“老师越强,学生越好”的直觉,做智能体微调的团队会发现数据质量和交互结构比模型能力更重要,值得仔细读实验设计。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。