SPIRAL：让语言模型学会并行搜索与聚合推理

精选理由

这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

AI 摘要

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

AI 翻译 · 中文

arXiv cs.AILanguage model reasoning can be substantially improved at test time via scaffolds that scale inference compute across different primitives -- sequential reasoning within a trace, independently sampled parallel traces, an…

阅读原文