精选理由
VLA 驾驶模型的推理不忠实问题直接关系到自动驾驶安全,做自动驾驶或具身智能的开发者值得关注——你的模型可能声称停车但实际在开。
该研究首次系统评估了视觉-语言-动作(VLA)驾驶模型在推理忠实性方面的表现,分析了 Alpamayo-R1-10B 在 100 个场景中的 300 次推理。结果显示,模型输出的自然语言推理与轨迹存在显著不忠实:整体推理忠实度仅 42.5%,Chain-of-Causation 匹配场景现实不到一半;在三分之一的行人相关场景中遗漏了 94 个行人;轻微视觉扰动导致 97.7% 的轨迹脆弱;推理-动作一致性仅 48.3%,其中 53.3% 的推理一致性低,37.9% 声称停止但模型继续前进。研究从信息论角度形式化了忠实性,定义了实体和动作忠实性验证标准,并提出了四组件安全架构。
AI 翻译 · 中文
该研究首次系统评估了视觉-语言-动作(VLA)驾驶模型在推理忠实性方面的表现,分析了 Alpamayo-R1-10B 在 100 个场景中的 300 次推理。结果显示,模型输出的自然语言推理与轨迹存在显著不忠实:整体推理忠实度仅 42.5%,Chain-of-Causation 匹配场景现实不到一半;在三分之一的行人相关场景中遗漏了 94 个行人;轻微视觉扰动导致 97.7% 的轨迹脆弱;推理-动作一致性仅 48.3%,其中 53.3% 的推理一致性低,37.9% 声称停止但模型继续前进。研究从信息论角度形式化了忠实性,定义了实体和动作忠实性验证标准,并提出了四组件安全架构。
We present the first systematic study of faithfulness in Vision-Language-Action (VLA) driving models, analyzing 300 Alpamayo-R1-10B inferences across 100 diverse PhysicalAI-AV scenarios. Our main finding is that output n…