6月23日
12:56
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman
72°
SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。
推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。