15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman72°SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。论文SPIRALGRPO推理模型强化学习链式思维推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。原文