强化学习(RL)在2026年5月迎来多项技术突破,聚焦于提升训练效率、推理能力和可扩展性。背景方面,RL在大语言模型(LLM)和多模态智能体中广泛应用,但面临梯度错误、验证器脆弱性、以及分布式训练带宽瓶颈等挑战。
- 近期进展包括:
- 多轮RL训练陷阱被揭示:有研究指出,token重编码导致梯度错误,影响LLM智能体在连续RL训练中的稳定性。(多轮RL训练智能体LLM的陷阱:Token重编码导致梯度错误)
- 推理能力提升新方法:Entropy-Cut MH通过熵识别推理决策点并采样,增强了推理性能;自训练验证器(STV)让模型在训练和测试时自行改进;OmniVerifier-M1则用符号化元验证提升多模态模型可靠性。(Entropy-Cut MH:用熵识别推理决策点,采样提升推理能力) (自训练验证器STV:解锁推理模型的训练与测试时自改进) (OmniVerifier-M1:符号化元验证提升多模态模型可靠性)
- 训练效率与框架创新:ESPO通过早期停止PPO节省20%推理token并提升数学性能;Hugging Face团队将异步RL权重同步带宽成本降低约100倍;英伟达开源Polar框架,基于GRPO在Codex基准上取得594.74%的提升;Orbit框架支持单节点训练万亿参数模型,如DeepSeek-V4。(ESPO:早期停止PPO,节省20%推理token并提升数学推理性能) (Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍) (英伟达开源 Polar 框架,Codex 跑分暴涨 594.74%) (Orbit 开源框架:单节点训练万亿参数模型,DeepSeek-V4 可用)
当前焦点集中在如何通过方法论改进(如熵裁剪、早期停止)和工程优化(如异步RL带宽降低、单节点大规模训练)来提升RL的实用性与效率。未来观察点包括:这些方法在更广泛领域的泛化能力,以及框架开源后社区的采纳与进一步创新。