11:07arXiv cs.AI@Zhenyu Sun, Zheng Xu, Ermin Wei传统RLHF依赖静态奖励模型,但人类偏好多样且异构,单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域,无法适应新偏好分布。本文提出In-Context Reward Adaptation,一种基于Transformer的框架,通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差,而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础,支持异构奖励和偏好分布偏移,是实现灵活人机对齐的可扩展路径。论文RLHF偏好建模上下文学习Transformer人机对齐推荐理由:做RLHF对齐的团队终于有了处理偏好多样性的实用方案——无需重新训练就能适应新人群,做AI安全或个性化推荐的开发者值得关注。原文