In-Context Reward Adaptation：用上下文学习实现鲁棒偏好建模

精选理由

做RLHF对齐的团队终于有了处理偏好多样性的实用方案——无需重新训练就能适应新人群，做AI安全或个性化推荐的开发者值得关注。

AI 摘要

传统RLHF依赖静态奖励模型，但人类偏好多样且异构，单一模型难以泛化到未见领域。现有多奖励框架局限于固定领域，无法适应新偏好分布。本文提出In-Context Reward Adaptation，一种基于Transformer的框架，通过上下文学习从少量偏好演示中自适应推断奖励结构。研究发现标准Transformer存在渐近偏差，而引入人类响应时间作为辅助信号可成功适应未见领域偏好。该方法为偏好建模提供了更鲁棒的基础，支持异构奖励和偏好分布偏移，是实现灵活人机对齐的可扩展路径。

AI 翻译 · 中文

arXiv cs.AIReinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human preferences. However, human values are inherently diverse and heterogeneous, and a sing…

阅读原文