AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:RLHF×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
11:07
11:07arXiv cs.AI@Zhenyu Sun, Zheng Xu, Ermin Wei
传统RLHF依赖静态奖励模型,但人类偏好多样且异构,单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域,无法适应新偏好分布。本文提出In-Context Reward Adaptation,一种基于Transformer的框架,通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差,而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础,支持异构奖励和偏好分布偏移,是实现灵活人机对齐的可扩展路径。
论文RLHF偏好建模上下文学习Transformer人机对齐

推荐理由:做RLHF对齐的团队终于有了处理偏好多样性的实用方案——无需重新训练就能适应新人群,做AI安全或个性化推荐的开发者值得关注。
原文
5月27日
10:30
10:30arXiv cs.AI@Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee
精选72°
这篇论文揭示了强化学习从人类反馈(RLHF)中的一个结构性漏洞:当 LLM 在生成偏好数据集时,如果其输出质量高但带有偏见,人类标注者会因质量而偏好这些有偏见的回答,导致 RLHF 放大而非抑制这些偏见。作者称之为“对齐篡改”,并实验证明了从关键词偏见、性别歧视到品牌推广等多种偏见的放大。现有缓解方法在保持回答质量的同时难以完全解决这一问题,凸显了当前对齐技术的脆弱性。
论文RLHF对齐安全偏见放大LLM 安全arXiv 论文

推荐理由:做 LLM 对齐和安全的团队需要警惕:RLHF 可能被模型自身输出“反向劫持”,导致偏见被系统性地放大。建议点开看看实验细节,评估自己训练流程中是否存在类似风险。
原文
5月25日
10:01
10:01arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao
本文研究了在 episodic 核马尔可夫决策过程(MDP)中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同,人类反馈通常以偏好形式出现(如比较两个轨迹的优劣),这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间(一种通用的理论分析模型),并设计了基于偏好的值估计和置信集方法,专门处理每轮结束时给出的二元偏好比较。理论结果表明,学习策略的遗憾值随回合数亚线性增长,即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础,尤其适用于奖励难以量化但人类容易比较的场景。
论文强化学习偏好反馈RLHF核MDP理论分析

推荐理由:偏好反馈是 RLHF 的核心,但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合,给出了亚线性遗憾界,做理论强化学习或 RLHF 算法设计的研究者值得细读。
原文
5月11日
11:44
11:44arXiv cs.LG(学术论文)
研究者提出了一种名为Susceptibilities的技术,用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响,扩展到RL的遗憾(regret)设置中。在简单的网格世界模型中,Susceptibilities能够揭示参数空间内模型发展的内部特征,而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导(activation-steering)证实了结果,并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。
论文强化学习可解释性神经网络RLHF

推荐理由:对强化学习研究者有参考价值,提供了超越传统策略分析的模型内部状态洞察方法,尤其可用于分析RLHF训练中的阶段变化。
原文
精选全部日报登录