QuasiMoTTo：用准蒙特卡洛方法提升推理时扩展的样本效率

精选理由

这篇论文提出QuasiMoTTo，用相关采样替代独立采样，在推理和强化学习中大幅减少样本需求，效果显著。

AI 摘要

论文提出QuasiMoTTo，利用准蒙特卡洛（QMC）生成相关但边际分布正确的样本，替换传统的独立同分布（i.i.d.）采样，减少冗余。在四个推理基准上，QuasiMoTTo以25-47%更少的样本达到相同的pass@k准确率，甚至常饱和边际保持采样器的理论上限。应用于策略梯度强化学习（GRPO）时，QuasiMoTTo以50%更少的训练步骤匹配i.i.d.性能。研究者还开发了无偏bootstrap估计器以评估相关采样器的pass@k。

AI 翻译 · 中文

arXiv cs.LGScaling inference compute, by generating many parallel attempts per problem, is a costly but reliable lever for improving language model capabilities. By default these attempts are generated independently, wasting infere…

阅读原文