VPO：向量策略优化训练多样性，提升测试时搜索效果

精选理由

VPO解决了LLM在推理时搜索中缺乏多样性的痛点，做强化学习后训练或推理时搜索的团队值得关注，它直接替换GRPO就能提升搜索效果。

AI 摘要

当前大语言模型的后训练通常优化单一标量奖励，导致输出分布低熵，难以在推理时搜索（如AlphaEvolve）中展现多样性。本文提出向量策略优化（VPO），一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式（如代码生成的逐测试用例正确性、多种用户画像或奖励模型），作为GRPO优势估计器的即插即用替代，训练模型输出一组解，每个解专门针对向量奖励空间中的不同权衡。在四个任务上，VPO在测试时搜索（如pass@k和best@k）中匹配或超越最强标量RL基线，且差距随搜索预算增大而扩大。对于进化搜索，VPO模型能解决GRPO模型完全无法解决的问题。

AI 翻译 · 中文

arXiv cs.AILanguage models must now generalize out of the box to novel environments and work inside inference-scaling search procedures, such as AlphaEvolve, that select rollouts with a variety of task-specific reward functions. Un…

阅读原文