10:01arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao本文研究了在 episodic 核马尔可夫决策过程(MDP)中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同,人类反馈通常以偏好形式出现(如比较两个轨迹的优劣),这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间(一种通用的理论分析模型),并设计了基于偏好的值估计和置信集方法,专门处理每轮结束时给出的二元偏好比较。理论结果表明,学习策略的遗憾值随回合数亚线性增长,即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础,尤其适用于奖励难以量化但人类容易比较的场景。论文强化学习偏好反馈RLHF核MDP理论分析推荐理由:偏好反馈是 RLHF 的核心,但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合,给出了亚线性遗憾界,做理论强化学习或 RLHF 算法设计的研究者值得细读。原文