10:40arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao该论文通过实验发现,多步工具使用强化学习(RL)训练中,模型可出现灾难性崩溃,性能骤降且工具调用结构失效。根本原因是特定控制token概率突增,但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,并比较了同步与交错训练方案。结果表明,将监督微调(SFT)与RL交错进行可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。该工作揭示了RL失败机理,并展示了多样化监督信号对鲁棒训练的价值。论文LLM强化学习工具使用SFT监督信号推荐理由:这篇论文分析了多步工具RL训练容易崩溃的原因,并实验证明交错SFT与RL能有效提升稳定性,对做智能体RL的人很有参考价值。原文