QuasiMoTTo:用准蒙特卡洛方法提升推理时扩展的样本效率

QuasiMoTTo: Quasi-Monte Carlo Test-Time Scaling

精选理由

这篇论文提出QuasiMoTTo,用相关采样替代独立采样,在推理和强化学习中大幅减少样本需求,效果显著。

AI 摘要

论文提出QuasiMoTTo,利用准蒙特卡洛(QMC)生成相关但边际分布正确的样本,替换传统的独立同分布(i.i.d.)采样,减少冗余。在四个推理基准上,QuasiMoTTo以25-47%更少的样本达到相同的pass@k准确率,甚至常饱和边际保持采样器的理论上限。应用于策略梯度强化学习(GRPO)时,QuasiMoTTo以50%更少的训练步骤匹配i.i.d.性能。研究者还开发了无偏bootstrap估计器以评估相关采样器的pass@k。

AI 翻译 · 中文

论文提出QuasiMoTTo,利用准蒙特卡洛(QMC)生成相关但边际分布正确的样本,替换传统的独立同分布(i.i.d.)采样,减少冗余。在四个推理基准上,QuasiMoTTo以25-47%更少的样本达到相同的pass@k准确率,甚至常饱和边际保持采样器的理论上限。应用于策略梯度强化学习(GRPO)时,QuasiMoTTo以50%更少的训练步骤匹配i.i.d.性能。研究者还开发了无偏bootstrap估计器以评估相关采样器的pass@k。

arXiv cs.LGScaling inference compute, by generating many parallel attempts per problem, is a costly but reliable lever for improving language model capabilities. By default these attempts are generated independently, wasting infere