全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:02

arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

精选83°

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

论文强化学习多 Token 预测推测解码拒绝采样 Qwen

推荐理由：RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

原文