论文精选83°

Bebop 突破熵界:MTP+拒绝采样加速 RL 训练 1.8 倍

Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

精选理由

RL 训练加速是 LLM 后训练的核心痛点,Bebop 用 MTP+拒绝采样把加速做到 1.8 倍,做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

AI 摘要

强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。

AI 翻译 · 中文

强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。

arXiv cs.LGReinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural so