12:02
12:02
arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou 强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。
推荐理由:RL 训练加速是 LLM 后训练的核心痛点,Bebop 用 MTP+拒绝采样把加速做到 1.8 倍,做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。
11:58
11:58
arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana 这篇论文提出了一种基于可解释性的后训练数据管道,用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念,让用户能明确哪些行为应该被模型学习。实验表明,该方法能有效缓解过度风格化、谄媚等不良行为,并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
11:56
11:56
arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang 通用智能体(如OpenClaw)在编程任务上的表现难以用现有SWE-bench准确衡量,因为其不满足Docker工作区、补丁和预测合约要求。为此,研究者推出了Claw-SWE-Bench,一个多语言基准测试和适配器协议,能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例,覆盖8种语言和43个仓库,并提供了80实例的轻量版Lite用于快速验证。实验显示,OpenClaw在直接适配器下仅得19.1% Pass@1,而完整适配器可达73.4%,表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度,数据已开源。
推荐理由:做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点,建议做Agent评估的开发者直接用它来测试自己的适配器设计。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。