全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

14:44

14:44

arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi

精选

论文提出通用偏好强化学习（GPRL），旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励，在数学和代码任务上表现优异，但无法处理开放式任务；偏好优化虽能处理开放式生成，却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型（GPM），将响应嵌入k个斜对称子空间，以结构化、非传递性感知的比较表示偏好，并在策略更新中保留k维结构。它计算每维度的组相对优势，独立归一化防止单一维度主导，并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器，可检测并纠正单轴利用。基于Llama-3-8B-Instruct，GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率，并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO，有效抵抗奖励黑客攻击。

论文强化学习偏好优化对齐奖励黑客 GPRL

推荐理由：做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题，值得关注其实际效果。