精选理由
发新论文了,斯坦福团队搞的QuasiMoTTo,不用独立采样浪费算力,相关采样省25-47%样本,训练步骤也砍半。做推理扩展的可以看看。
QuasiMoTTo是一种新的推理计算扩展方法,通过相关采样替代独立采样,避免重复发现相同解。该方法样本覆盖率更高,且保持边缘精确的LLM分布。实验显示,在测试时扩展中,仅需25-47%的样本即可达到相同性能;在强化学习训练中,减少50%的步骤。该研究由斯坦福大学团队完成,探索了相关采样器的设计空间。
AI 翻译 · 中文
QuasiMoTTo是一种新的推理计算扩展方法,通过相关采样替代独立采样,避免重复发现相同解。该方法样本覆盖率更高,且保持边缘精确的LLM分布。实验显示,在测试时扩展中,仅需25-47%的样本即可达到相同性能;在强化学习训练中,减少50%的步骤。该研究由斯坦福大学团队完成,探索了相关采样器的设计空间。
We love scaling inference compute, but it’s costly! Independently sampling parallel attempts might be the culprit: it wastes compute rediscovering the same solutions. What if we scaled inference compute with correlated s…