论文精选

逆运动学视角重设计Driving VLA:0.5B模型性能媲美7B-8B

Grounding Driving VLA via Inverse Kinematics

精选理由

这篇论文用逆运动学原理解决了Driving VLA忽视视觉特征的顽疾,做自动驾驶轨迹规划的团队值得关注——0.5B模型就能达到7B-8B的效果,意味着更低的部署成本和更好的视觉鲁棒性。

AI 摘要

现有驾驶视觉-语言-动作模型(Driving VLA)在轨迹预测时严重忽视视觉特征,原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计,要求模型预测未来视觉状态作为边界条件,并引入独立逆运动学网络(交叉注意力条件扩散模型)来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数,该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能,尤其在动态驾驶场景(如转弯)中视觉特征利用显著提升。

AI 翻译 · 中文

现有驾驶视觉-语言-动作模型(Driving VLA)在轨迹预测时严重忽视视觉特征,原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计,要求模型预测未来视觉状态作为边界条件,并引入独立逆运动学网络(交叉注意力条件扩散模型)来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数,该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能,尤其在动态驾驶场景(如转弯)中视觉特征利用显著提升。

arXiv cs.AIExisting Driving VLAs predict trajectories while largely ignoring their visual tokens -- a phenomenon we trace not to insufficient training but to a structurally ill-posed task formulation. We show that trajectory recove