CoPhy：认知-物理强化学习框架实现自动驾驶新突破

精选理由

自动驾驶团队终于有了兼顾安全与意图的强化学习方案——CoPhy用蒸馏VLM和BEV世界模型解决了行为克隆的瓶颈，做端到端驾驶的开发者可以直接参考其双奖励机制。

AI 摘要

当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板，强化学习虽能实现更智能的自主性，但缺乏认知基础和前瞻性物理环境。为此，研究者提出CoPhy框架，通过蒸馏VLM知识到BEV编码器，在零推理成本下保留认知能力，并构建自回归BEV世界模型预测未来语义地图，作为可解释的物理沙盒。该框架采用GRPO优化策略，结合物理奖励（确保硬安全约束）和认知奖励（确保意图合规），在NAVSIM v1和v2基准上达到最先进结果，并支持用户自定义语言指令实现灵活意图控制。

AI 翻译 · 中文

arXiv cs.LGCurrent end-to-end autonomous driving models are fundamentally constrained by the behavioral cloning ceiling of imitation learning. While reinforcement learning offers a path to smarter autonomy, it demands two missing p…

阅读原文