6月3日
11:12
11:12arXiv: OpenAI@Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze
精选
Entropy Gate 提出了一种基于熵淬火(entropy quenching)的令牌压缩框架,通过为每个令牌计算多因素信息能量,并模拟热力学过程逐步“冻结”低能量令牌,实现近无损压缩。该框架在五种提示类别上达到40-60%的压缩率,同时保持语义保真度(S_E > 0.80)。上下文去重可额外节省50-70%的重复块开销,输出端压缩进一步减少响应冗余。结合外部存储时,代理工作负载的压缩率可达88-96%。该方案无状态、模型无关,可作为兼容OpenAI的HTTP代理部署。

推荐理由:LLM 开发者常被冗长上下文和重复输出浪费大量令牌预算——Entropy Gate 用热力学思路解决了这个痛点,做长上下文推理或代理应用的团队可以直接集成,省令牌就是省成本。
10:57
10:57arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
精选
研究团队提出 Humanoid-GPT,一种基于 GPT 风格的因果注意力 Transformer,在 20 亿帧的运动数据上预训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同,Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量,该模型能够追踪高度动态的行为,并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明,Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。
推荐理由:做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练,直接解决了以往模型在动态场景下泛化差的问题,做仿人机器人或动画生成的开发者值得关注。
10:47
10:47arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
该研究提出一个系统框架,用于量化大型推理模型(LRM)在输出长链思维时,其内在置信度与语言表达置信度之间的对齐程度(即忠实校准FC)。研究发现,LRM的推理行为并不会自动提升FC,且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估,暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。
10:45
10:45arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang
精选
当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。
推荐理由:做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。