逆运动学视角重设计Driving VLA：0.5B模型性能媲美7B-8B

精选理由

这篇论文用逆运动学原理解决了Driving VLA忽视视觉特征的顽疾，做自动驾驶轨迹规划的团队值得关注——0.5B模型就能达到7B-8B的效果，意味着更低的部署成本和更好的视觉鲁棒性。

AI 摘要

现有驾驶视觉-语言-动作模型（Driving VLA）在轨迹预测时严重忽视视觉特征，原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计，要求模型预测未来视觉状态作为边界条件，并引入独立逆运动学网络（交叉注意力条件扩散模型）来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数，该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能，尤其在动态驾驶场景（如转弯）中视觉特征利用显著提升。

AI 翻译 · 中文

arXiv cs.AIExisting Driving VLAs predict trajectories while largely ignoring their visual tokens -- a phenomenon we trace not to insufficient training but to a structurally ill-posed task formulation. We show that trajectory recove…

阅读原文