全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月22日

10:58

10:58

arXiv cs.AI@Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal

精选72°

当前大语言模型的后训练通常优化单一标量奖励，导致输出分布低熵，难以在推理时搜索（如AlphaEvolve）中展现多样性。本文提出向量策略优化（VPO），一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式（如代码生成的逐测试用例正确性、多种用户画像或奖励模型），作为GRPO优势估计器的即插即用替代，训练模型输出一组解，每个解专门针对向量奖励空间中的不同权衡。在四个任务上，VPO在测试时搜索（如pass@k和best@k）中匹配或超越最强标量RL基线，且差距随搜索预算增大而扩大。对于进化搜索，VPO模型能解决GRPO模型完全无法解决的问题。

论文强化学习推理时搜索多样性训练 VPO GRPO

推荐理由：VPO解决了LLM在推理时搜索中缺乏多样性的痛点，做强化学习后训练或推理时搜索的团队值得关注，它直接替换GRPO就能提升搜索效果。