12:00arXiv cs.LG@Zhou Jiang, Yandong Wen, Zhen Liu精选一步式文本到图像生成器(如SD-Turbo)因单次前向传播即可生成图像而备受关注,但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度,难以直接应用。研究者提出Drifting Preference Optimization (DrPO),一种在线偏好微调方法,通过从当前生成器采样候选图像,用目标奖励排序,并合成特征空间更新方向(非参数偶极偏好场加参考漂移),实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估,使用HPSv3和GenEval等基准,相比无奖励梯度的一步偏好基线提升了对齐效果,并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励,且推理时仍保持单次生成调用。论文一步生成模型偏好优化文本到图像SD-Turbo奖励函数推荐理由:DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹,做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度,训练效率还提升了3倍多,值得关注。原文
10:22arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan精选Linear-DPO 提出了一种新的直接偏好优化(DPO)方法,解决了现有 DPO 在文本到图像生成中的两大问题:仅适用于扩散模型而忽略流匹配,以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标,并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数,并引入 EMA 更新的参考模型。在扩散模型(SD1.5、SDXL)和流匹配模型(SD3-Medium)上的实验表明,该方法优于现有基线。论文DPO扩散模型流匹配文本到图像生成偏好优化推荐理由:做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配,解决了 DPO 在生成任务中的目标不匹配问题,做图像生成微调的建议试试。原文
14:44arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi精选论文提出通用偏好强化学习(GPRL),旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励,在数学和代码任务上表现优异,但无法处理开放式任务;偏好优化虽能处理开放式生成,却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型(GPM),将响应嵌入k个斜对称子空间,以结构化、非传递性感知的比较表示偏好,并在策略更新中保留k维结构。它计算每维度的组相对优势,独立归一化防止单一维度主导,并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器,可检测并纠正单轴利用。基于Llama-3-8B-Instruct,GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率,并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO,有效抵抗奖励黑客攻击。论文强化学习偏好优化对齐奖励黑客GPRL推荐理由:做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题,值得关注其实际效果。原文
01:10arXiv cs.LG@Enyi Jiang, Wu Sun野火预测面临罕见极端事件和分布漂移的双重挑战,标准模型常因忽视少数类(火灾)而失效。研究者提出环境自适应偏好优化(EAPO)框架,通过k近邻检索构建与目标环境对齐的数据集,再结合监督学习和偏好优化进行混合微调,重点强化对罕见极端事件的识别。在真实野火预测任务中,EAPO在环境变化下达到ROC-AUC 0.7310,显著提升了极端事件的检测能力。该工作为动态环境下的罕见事件预测提供了新思路。论文野火预测分布漂移偏好优化长尾分布环境自适应推荐理由:做环境监测或灾害预测的团队,EAPO 解决了分布漂移下罕见事件难检测的痛点,值得在类似长尾预测任务中试试。原文
11:43arXiv cs.LG(学术论文)本文提出GraphDPO,一种基于有向无环偏好图的直接偏好优化方法,用于语言模型对齐。传统DPO仅利用成对比较,忽略了多轮生成数据中的传递性和结构信息,导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督,强制传递性,并保持线性复杂度。实验表明,在推理和程序合成任务中,GraphDPO优于成对和列表式对齐方法,是一种可扩展且鲁棒的替代方案。论文偏好优化DPO图结构学习语言模型对齐推荐理由:该研究从图论视角重新审视偏好对齐,解决了DPO在多响应数据上的局限性,对提升模型训练效率和稳定性具有实际指导意义。原文