精选理由
做RLHF对齐的团队终于有了处理偏好多样性的实用方案——无需重新训练就能适应新人群,做AI安全或个性化推荐的开发者值得关注。
传统RLHF依赖静态奖励模型,但人类偏好多样且异构,单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域,无法适应新偏好分布。本文提出In-Context Reward Adaptation,一种基于Transformer的框架,通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差,而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础,支持异构奖励和偏好分布偏移,是实现灵活人机对齐的可扩展路径。
AI 翻译 · 中文
传统RLHF依赖静态奖励模型,但人类偏好多样且异构,单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域,无法适应新偏好分布。本文提出In-Context Reward Adaptation,一种基于Transformer的框架,通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差,而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础,支持异构奖励和偏好分布偏移,是实现灵活人机对齐的可扩展路径。
Reinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human preferences. However, human values are inherently diverse and heterogeneous, and a sing…