12:03arXiv cs.LG@Haoyuan Deng, Yitong Gao, Yudong Lin, Haichao Liu, Zhenyu Wu, Ziwei Wang精选真实世界机器人操作中,人类在环强化学习(HiL-RL)依赖频繁人工纠正,成本高且难以扩展。UniIntervene 提出一种智能体干预模型,能自动检测无效探索并引导策略回到高价值状态,大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器,在价值停滞或下降时触发干预,并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中,UniIntervene 将平均成功率提升 8.6%,同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。论文强化学习人机协作机器人操作智能体干预UniIntervene推荐理由:做机器人强化学习或人机协作的团队,终于有了减少人工干预的自动化方案——UniIntervene 用价值感知的智能体干预替代频繁人工纠正,成功率还更高,值得在真实场景中一试。原文