精选理由
RL 训练加速是 LLM 后训练的核心痛点,Bebop 用 MTP+拒绝采样把加速做到 1.8 倍,做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。
强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。
AI 翻译 · 中文
强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。
Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural so…