Lagrange:面向广义端到端驾驶的开放词汇、基于能量的稀疏框架

Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving

精选理由

自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常,比密集模型更高效,在nuScenes和CODA上表现不错。

AI 摘要

Lagrange提出基于掩码潜在场(MLF)的开放词汇稀疏驾驶框架,利用视觉语言模型(VLM)编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体,将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题,强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示,该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

AI 翻译 · 中文

Lagrange提出基于掩码潜在场(MLF)的开放词汇稀疏驾驶框架,利用视觉语言模型(VLM)编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体,将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题,强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示,该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

arXiv cs.AIScaling end-to-end autonomous driving to complex, open-world environments requires perceptual models that generalize to anomalous scenarios and planners that produce kinematically valid trajectories. Existing paradigms f