Bebop 突破熵界：MTP+拒绝采样加速 RL 训练 1.8 倍

精选理由

RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

AI 摘要

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

AI 翻译 · 中文

arXiv cs.LGReinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural so…

阅读原文