11:36arXiv cs.AI@Henrik Müller, Daniel Kudenko研究人员提出VLM-PBRS框架,利用轻量级视觉语言模型(VLM)的偏好反馈学习势函数,实现自动化基于势能的奖励塑形(PBRS)。该方法在Meta-World和Franka Kitchen环境上验证,相比无塑形的基线,样本效率提升且未导致奖励黑客。实验表明,即使使用计算开销更小的小型VLM,其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。论文VLM-PBRS强化学习奖励塑形Meta-WorldFranka Kitchen推荐理由:这论文教你用VLM给RL智能体自动设计奖励函数,不用手动调公式,在Meta-World和Franka Kitchen上训练更快,还防奖励黑客。原文
10:57arXiv cs.LG@Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas RhinehartUBP2是一种基于模型的偏好强化学习方法,通过联合推理奖励、动态和价值函数的不确定性来主动引导探索。该方法使用集成模型对候选轨迹进行评分,平衡期望奖励、终止价值和认知不确定性。在Meta-World基准测试中,UBP2比无模型的偏好方法和非乐观的基于模型基线实现了更高的样本效率。论文UBP2偏好强化学习样本效率Meta-World不确定性推荐理由:UBP2通过主动探索和不确定性平衡,有效解决了偏好强化学习中样本效率低的问题。在Meta-World测试中效果显著。原文