12:02
12:02
arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou 强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。
推荐理由:RL 训练加速是 LLM 后训练的核心痛点,Bebop 用 MTP+拒绝采样把加速做到 1.8 倍,做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。
11:58
11:58
arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana 这篇论文提出了一种基于可解释性的后训练数据管道,用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念,让用户能明确哪些行为应该被模型学习。实验表明,该方法能有效缓解过度风格化、谄媚等不良行为,并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
11:56
11:56
arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang 通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。
推荐理由:做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点,建议做Agent评估的开发者直接用它来测试自己的适配器设计。
11:01
11:01
arXiv: DeepSeek@Hao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Bowen Yu, Peng Wang, Hongyu Lin, Dayiheng Liu RACES 提出一种递归自动组合框架,将可验证环境视为可组合的积木块,通过定义 SEQUENTIAL、PARALLEL、SORT、SELECT 等组合算子,自动融合环境以生成多样化的推理模式。实验表明,基于组合环境的强化学习训练能持续提升推理泛化能力:在 6 个未见基准上,DeepSeek-R1-Distill-Qwen-14B 平均提升 3.1 分,Qwen3-14B 从 58.8 提升至 61.1。仅用 50 个基础环境即可达到 300 个独立环境的训练效果,显著提高环境利用效率。该方法解决了手动构建环境线性扩展的瓶颈,为 LLM 推理能力扩展提供了可扩展的新路径。
推荐理由:做 LLM 推理强化学习的团队终于有了可扩展的环境构建方案——RACES 用递归组合替代手动堆叠,效率提升 6 倍,值得关注其开源实现。
10:59
10:59
arXiv cs.AI@Kai Standvoss, Miriam Hägele, Rosemarie Krupar, Julika Ribbat-Idel, Jennifer Altschüler, Gerrit Erdmann, Hans Pinckaers, Evelyn Ramberger, Madleen Drinkwitz, Ádám Nárai, Alexander Möllers, Katja Lingelbach, Sebastian Kons, Lukas Hönig, Recepcan Adigüzel, Joana Baião, Alberto Megina Gonzalo, Marius Teodorescu, Marie-Lisa Eich, Paolo Chetta, Shakil Merchant, Verena Aumiller, Simon Schallenberg, Andrew Norgan, Klaus-Robert Müller, Lukas Ruff, Maximilian Alber, Frederick Klauschen Atlas H&E-TME 是一个基于 Atlas 病理基础模型的 AI 系统,能够从 H&E 染色的全切片图像中预测组织质量、区域和细胞类型,每张切片输出超过 4500 个细胞级定量指标。研究团队提出了双重验证框架:一方面利用免疫组化(IHC)信息构建多病理学家共识,作为分子层面的金标准;另一方面在超过 20 万条高置信度病理学家标注上测试,覆盖 8 种癌症类型、1500+ 病例。结果显示,Atlas H&E-TME 在 H&E 图像上的表现与病理学家相当甚至更优,且泛化能力强。这一系统将最普遍的 H&E 切片转化为可扩展的定量工具,为下一代组织生物标志物研究奠定基础。
推荐理由:病理分析终于有了可规模化的 AI 方案——Atlas H&E-TME 在 H&E 图像上达到专家级精度,做肿瘤微环境研究和临床转化的团队可以直接用上这套定量工具。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。