论文精选

CoPhy:认知-物理强化学习框架实现自动驾驶新突破

Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving

精选理由

自动驾驶团队终于有了兼顾安全与意图的强化学习方案——CoPhy用蒸馏VLM和BEV世界模型解决了行为克隆的瓶颈,做端到端驾驶的开发者可以直接参考其双奖励机制。

AI 摘要

当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板,强化学习虽能实现更智能的自主性,但缺乏认知基础和前瞻性物理环境。为此,研究者提出CoPhy框架,通过蒸馏VLM知识到BEV编码器,在零推理成本下保留认知能力,并构建自回归BEV世界模型预测未来语义地图,作为可解释的物理沙盒。该框架采用GRPO优化策略,结合物理奖励(确保硬安全约束)和认知奖励(确保意图合规),在NAVSIM v1和v2基准上达到最先进结果,并支持用户自定义语言指令实现灵活意图控制。

AI 翻译 · 中文

当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板,强化学习虽能实现更智能的自主性,但缺乏认知基础和前瞻性物理环境。为此,研究者提出CoPhy框架,通过蒸馏VLM知识到BEV编码器,在零推理成本下保留认知能力,并构建自回归BEV世界模型预测未来语义地图,作为可解释的物理沙盒。该框架采用GRPO优化策略,结合物理奖励(确保硬安全约束)和认知奖励(确保意图合规),在NAVSIM v1和v2基准上达到最先进结果,并支持用户自定义语言指令实现灵活意图控制。

arXiv cs.LGCurrent end-to-end autonomous driving models are fundamentally constrained by the behavioral cloning ceiling of imitation learning. While reinforcement learning offers a path to smarter autonomy, it demands two missing p