做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题,值得关注其实际效果。
论文提出通用偏好强化学习(GPRL),旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励,在数学和代码任务上表现优异,但无法处理开放式任务;偏好优化虽能处理开放式生成,却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型(GPM),将响应嵌入k个斜对称子空间,以结构化、非传递性感知的比较表示偏好,并在策略更新中保留k维结构。它计算每维度的组相对优势,独立归一化防止单一维度主导,并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器,可检测并纠正单轴利用。基于Llama-3-8B-Instruct,GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率,并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO,有效抵抗奖励黑客攻击。
论文提出通用偏好强化学习(GPRL),旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励,在数学和代码任务上表现优异,但无法处理开放式任务;偏好优化虽能处理开放式生成,却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型(GPM),将响应嵌入k个斜对称子空间,以结构化、非传递性感知的比较表示偏好,并在策略更新中保留k维结构。它计算每维度的组相对优势,独立归一化防止单一维度主导,并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器,可检测并纠正单轴利用。基于Llama-3-8B-Instruct,GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率,并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO,有效抵抗奖励黑客攻击。
Post-training has split large language model (LLM) alignment into two largely disconnected tracks. Online reinforcement learning (RL) with verifiable rewards drives emergent reasoning on math and code but depends on a pr…