行为克隆是一种模仿学习范式,通过直接学习专家演示的状态-动作映射来训练智能体。近期该领域围绕数据效率、泛化能力和实际部署挑战展开多项研究。
- 主要进展
- 低成本机械臂的力控操作突破:FACTR提出一种无传感器力估计方法,仅基于电机电流和运动学模型推断接触力,使低成本机械臂能完成柔顺抓取、组装等力控任务。该方法直接在行为克隆框架下训练策略,降低了硬件依赖。FACTR 2:无传感器力估计让低成本机械臂学会力控操作
- 检索增强型模仿学习提升泛化性:DARP引入差异感知检索策略,在测试时从经验池中检索与当前状态最相关的演示片段,解决行为克隆在分布外场景的性能下降问题。该方法在多个机器人操作任务上显著提升成功率。DARP:差异感知检索策略提升模仿学习泛化性
- 工业界行为克隆争议:从工程师工作痕迹训练编程AI:Meta被曝使用工程师留下的代码编辑历史(如撤销、重做、修改记录)训练编程AI模型,同时裁员8000人。此举引发对“数据所有权”和“替代员工”的伦理争议,凸显行为克隆技术在商业应用中的潜在滥用。Meta 泄露音频:用工程师工作痕迹训练编程AI,同时裁员8000
当前焦点:行为克隆正从实验室走向真实世界,核心挑战在于“分布外泛化”和“数据效率”。检索增强、无传感器感知等新范式试图缓解这些问题,但工业界的激进应用引发伦理警报:当克隆对象从机器人操作扩展到人类知识劳动时,如何界定数据使用边界、保障原从业者权益,成为亟待讨论的议题。
未来观察点:行为克隆与基础模型的结合是否能实现zero-shot泛化?以及类似Meta事件是否会催生相关的数据使用法规或行业准则?