精选理由
UBP2通过主动探索和不确定性平衡,有效解决了偏好强化学习中样本效率低的问题。在Meta-World测试中效果显著。
UBP2是一种基于模型的偏好强化学习方法,通过联合推理奖励、动态和价值函数的不确定性来主动引导探索。该方法使用集成模型对候选轨迹进行评分,平衡期望奖励、终止价值和认知不确定性。在Meta-World基准测试中,UBP2比无模型的偏好方法和非乐观的基于模型基线实现了更高的样本效率。
AI 翻译 · 中文
UBP2是一种基于模型的偏好强化学习方法,通过联合推理奖励、动态和价值函数的不确定性来主动引导探索。该方法使用集成模型对候选轨迹进行评分,平衡期望奖励、终止价值和认知不确定性。在Meta-World基准测试中,UBP2比无模型的偏好方法和非乐观的基于模型基线实现了更高的样本效率。
Preference-based RL provides an approach to learning reward models from pairwise comparisons of behaviors, bypassing the need for explicit reward design. However, existing methods typically rely on passive data collectio…