论文精选

UniIntervene:智能体干预让真实世界强化学习更高效

UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning

精选理由

做机器人强化学习或人机协作的团队,终于有了减少人工干预的自动化方案——UniIntervene 用价值感知的智能体干预替代频繁人工纠正,成功率还更高,值得在真实场景中一试。

AI 摘要

真实世界机器人操作中,人类在环强化学习(HiL-RL)依赖频繁人工纠正,成本高且难以扩展。UniIntervene 提出一种智能体干预模型,能自动检测无效探索并引导策略回到高价值状态,大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器,在价值停滞或下降时触发干预,并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中,UniIntervene 将平均成功率提升 8.6%,同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。

AI 翻译 · 中文

真实世界机器人操作中,人类在环强化学习(HiL-RL)依赖频繁人工纠正,成本高且难以扩展。UniIntervene 提出一种智能体干预模型,能自动检测无效探索并引导策略回到高价值状态,大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器,在价值停滞或下降时触发干预,并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中,UniIntervene 将平均成功率提升 8.6%,同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。

arXiv cs.LGHuman-in-the-loop reinforcement learning (HiL-RL) has emerged as an effective paradigm for real-world robotic manipulation, enabling online policy improvement with human guidance. However, current HiL-RL frameworks remai