全部 AI 动态 · AI 热点

6月24日

11:37

11:37

arXiv cs.AI@Xiaowei Gao, Pengxiang Li, Yitai Cheng, Ruihan Xu, James Haworth, Stephen Law, Yun Ye

UniDrive是一个统一视觉语言与定位框架，旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态，并通过高分辨率感知分支从最新帧保留细粒度空间细节，两者经门控交叉注意力融合模块集成。基于融合表示，UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上，UniDrive在描述和风险对象定位上均优于基于图像和视频的基线，并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出，人类评级的可解释性和可信度也更高。

论文 UniDrive 自动驾驶 DRAMA-Reasoning 多模态大模型零样本泛化

推荐理由：这个框架把时序推理和高分辨率感知结合起来，在DRAMA-Reasoning上碾压了现有方法，还能零样本泛化到NuScenes和BDD100K，代码也开源了，做自动驾驶可解释性研究的值得一看。

6月19日

10:15

10:15

arXiv cs.AI@Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

Lagrange提出基于掩码潜在场（MLF）的开放词汇稀疏驾驶框架，利用视觉语言模型（VLM）编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体，将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题，强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示，该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

论文 Lagrange 自动驾驶视觉语言模型掩码潜在场端到端驾驶

推荐理由：自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常，比密集模型更高效，在nuScenes和CODA上表现不错。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:24

10:24

arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo

该框架采用因果推断方法进行换道预测，结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内，平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应，并生成对比因果链解释。与传统基于相关性分类的方法不同，该框架提供可解释的因果推理。

论文换道预测因果推理自动驾驶可解释性 DECI

推荐理由：这篇论文把换道预测从统计相关提升到因果推理，用DECI模型实现了95%以上的F1分数，还给出了清晰的因果链解释，做自动驾驶可解释性的一定要看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

10:56

10:56

arXiv cs.AI@Debojyoti Biswas, Xianbiao Hu

精选

ATN3D是一种针对自动驾驶中远距离稀疏场景的激光雷达-雷达早期融合3D目标检测框架。它解决了远距离（>30米）下感知证据稀疏导致的两个核心问题：早期多模态融合会丢弃稀疏信息并引入噪声，以及统一通道监督偏向近处密集样本。ATN3D引入了密度感知早期融合、占用门控邻域聚合、证据条件通道自注意力和距离感知损失。在VoD基准测试中，ATN3D在晴朗天气下mAP提升3.55%，在模拟浓雾下提升8.41%，远距离目标检测也有显著提升。

论文 3D目标检测自动驾驶激光雷达-雷达融合稀疏感知远距离检测

推荐理由：自动驾驶感知团队终于有了专门应对远距离稀疏场景的融合方案——ATN3D在>30m目标上提升明显，做多传感器融合的开发者值得关注。

6月8日

09:35

09:35

arXiv cs.AI@Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone

针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题，本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩，将扩展上下文压缩为有限表示，同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图，推理时从压缩观测中预测意图，并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下，COMPACT-VA 在相同令牌预算下成功率提升超 6%，并实现 3.3 倍加速和 2.7 倍内存缩减。

论文自动驾驶令牌压缩 VQ-VAE 长上下文规划对齐

推荐理由：自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌，做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。

09:29

09:29

arXiv cs.AI@Chaitanya Shinde, Hadi Hajieghrary, Paul Schmitt, Adam Shoemaker, Bodo Seifert, Steve Kenner

这篇论文针对自动驾驶汽车（AV）中缺乏人类驾驶员的情况，重新审视了ISO 26262功能安全标准中的可控性概念。作者将可控性分解为两个可审计的证据维度：可转移性和可预测性。可转移性衡量AV系统将控制权移交给专用后备安全机制的能力，而可预测性则量化外部实体预测AV行为的难易程度。论文还引入了设计能力与可实现能力之间的差距，以区分架构后备声明与场景条件下的实际后备能力。这些指标与ISO 26262和ISO/PAS 21448（SOTIF）兼容，使后备和交互声明在ODD切片上可证伪和可追溯，从而将标准扩展到SAE L4和L5级无人驾驶系统。

论文自动驾驶功能安全 ISO 26262 可控性 SOTIF

推荐理由：自动驾驶安全工程师和标准制定者终于有了量化可控性的方法——可转移性和可预测性让ISO 26262在L4/L5场景下可落地，做功能安全验证的团队可以直接参考论文中的数学框架来改进测试用例。

6月5日

11:59

11:59

arXiv cs.AI@Qi Lan, Yining Tang, Yu Shen, Yi Zhou, Yuhao Wei, Jie Li, Guofa Li

精选

安全关键交通场景生成对评估自动驾驶系统在罕见但高风险交互下的表现至关重要。现有扩散方法虽在闭环生成中可控性强，但迭代去噪过程计算成本高，且长序列中易累积采样和引导误差，导致抖动、异常加速等不真实运动。RiskFlow 提出一种新框架，将未来轨迹生成建模为动作空间中的传输，通过单次前向传播学习平均速度场，将高斯动作序列转化为加速度和偏航率指令，并利用输出空间引导生成高风险交互，同时保持物理可行性。实验表明，RiskFlow 在多智能体和长时域设置下实现了对抗性与真实性的良好平衡，显著提升真实性并降低推理时间。

论文自动驾驶安全关键场景生成 RiskFlow 交通仿真生成模型

推荐理由：自动驾驶安全测试场景生成一直面临计算慢、动作不真实的问题，RiskFlow 用单次前向传播替代迭代去噪，做仿真评估的团队可以直接用，效果比扩散方法更高效更保真。

5月21日

11:19

11:19

arXiv cs.AI@Abhinaw Priyadershi, Jelena Frtunikj

精选

该研究系统评估了自动驾驶视觉-语言-动作模型（VLA）在传感器退化下的鲁棒性，对Alpamayo R1（10B参数）在1996个场景中施加8种扰动（高斯噪声、光照极端、雾霾），进行约18000次推理测试。结果发现，因果链（CoC）解释的一致性高精度指示轨迹可靠性：扰动后CoC变化时，轨迹偏差飙升5.3倍（21.8米 vs 4.1米），相关系数达0.99。启用CoC生成平均提升轨迹精度11.8%（p<0.0001）。研究建议将推理一致性作为规划安全定量代理，推动基于推理的运行时监控。

论文自动驾驶 VLA 推理鲁棒性因果链传感器扰动

推荐理由：自动驾驶安全团队终于有了可量化的推理可靠性指标——CoC一致性比直接测轨迹更早暴露风险，做VLA部署或安全验证的开发者值得关注这个监控思路。

10:22

10:22

arXiv cs.LG@Yang Wu, Qiang Meng, Zhaojiang Liu, Youquan Liu, Jian Yang, Jin Xie

精选

当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板，强化学习虽能实现更智能的自主性，但缺乏认知基础和前瞻性物理环境。为此，研究者提出CoPhy框架，通过蒸馏VLM知识到BEV编码器，在零推理成本下保留认知能力，并构建自回归BEV世界模型预测未来语义地图，作为可解释的物理沙盒。该框架采用GRPO优化策略，结合物理奖励（确保硬安全约束）和认知奖励（确保意图合规），在NAVSIM v1和v2基准上达到最先进结果，并支持用户自定义语言指令实现灵活意图控制。

论文自动驾驶强化学习 VLM蒸馏 BEV世界模型安全约束

推荐理由：自动驾驶团队终于有了兼顾安全与意图的强化学习方案——CoPhy用蒸馏VLM和BEV世界模型解决了行为克隆的瓶颈，做端到端驾驶的开发者可以直接参考其双奖励机制。

09:46

09:46

arXiv cs.AI@Junsung Park, Hyunjung Shim

精选

现有驾驶视觉-语言-动作模型（Driving VLA）在轨迹预测时严重忽视视觉特征，原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计，要求模型预测未来视觉状态作为边界条件，并引入独立逆运动学网络（交叉注意力条件扩散模型）来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数，该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能，尤其在动态驾驶场景（如转弯）中视觉特征利用显著提升。

论文 Driving VLA 逆运动学轨迹预测自动驾驶视觉特征

推荐理由：这篇论文用逆运动学原理解决了Driving VLA忽视视觉特征的顽疾，做自动驾驶轨迹规划的团队值得关注——0.5B模型就能达到7B-8B的效果，意味着更低的部署成本和更好的视觉鲁棒性。

5月20日

16:00

16:00

arXiv cs.AI@Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat

精选

本文提出 VL-DPO 框架，利用视觉语言模型（VLM）作为零样本推理器，自动从预训练模型的轨迹输出中生成偏好对，再通过直接偏好优化（DPO）微调运动预测模型，使其与人类驾驶偏好对齐。在 Waymo Open End-to-End Driving Dataset 上实验表明，VLM 的轨迹选择可作为人类偏好的高质量代理，最终模型在评分反馈（RFS）上提升 11.94%，平均位移误差（ADE）降低 10.01%。该方法解决了标准模仿学习难以捕捉人类驾驶偏好细微差异的问题，为自动驾驶行为决策提供了新的对齐思路。

论文自动驾驶偏好对齐视觉语言模型直接偏好优化运动预测

推荐理由：自动驾驶团队终于有了一个自动对齐人类偏好的实用方法——用 VLM 生成偏好对再微调，比手工标注高效太多，做运动预测或决策规划的开发者值得一试。

5月19日

09:54

09:54

arXiv cs.AI@Nicanor Mayumu, Xiaoheng Deng, Patrick Mukala

精选

该研究首次系统评估了视觉-语言-动作（VLA）驾驶模型在推理忠实性方面的表现，分析了 Alpamayo-R1-10B 在 100 个场景中的 300 次推理。结果显示，模型输出的自然语言推理与轨迹存在显著不忠实：整体推理忠实度仅 42.5%，Chain-of-Causation 匹配场景现实不到一半；在三分之一的行人相关场景中遗漏了 94 个行人；轻微视觉扰动导致 97.7% 的轨迹脆弱；推理-动作一致性仅 48.3%，其中 53.3% 的推理一致性低，37.9% 声称停止但模型继续前进。研究从信息论角度形式化了忠实性，定义了实体和动作忠实性验证标准，并提出了四组件安全架构。

论文 VLA 自动驾驶推理忠实性安全 Chain-of-Causation

推荐理由：VLA 驾驶模型的推理不忠实问题直接关系到自动驾驶安全，做自动驾驶或具身智能的开发者值得关注——你的模型可能声称停车但实际在开。

5月15日

11:04

11:04

arXiv cs.AI@Sining Ang, Yuguang Yang, Canyu Chen, Yan Wang

精选

端到端自动驾驶规划器通常通过模仿单一记录轨迹来训练，但评估时却使用基于规则的规划指标（如安全性、可行性、进度和舒适度），导致训练与评估不匹配。CLOVER 提出了一种闭环价值估计与排序框架，采用轻量级生成器-评分器结构：生成器产生多样候选轨迹，评分器预测规划指标子分数进行排序。通过构建评估器过滤的伪专家轨迹和集合级覆盖监督，CLOVER 扩展了候选支持；并采用保守闭环自蒸馏优化生成器和评分器。在NAVSIM上，CLOVER 达到94.5 PDMS和90.4 EPDMS，创下新SOTA；在更具挑战的NavHard上获得48.3 EPDMS，匹配最强结果。

论文自动驾驶端到端规划闭环价值估计 NAVSIM 生成器-评分器

推荐理由：CLOVER 解决了自动驾驶规划中训练与评估不匹配的核心痛点，做端到端规划的研究者和工程师可以直接参考其生成器-评分器框架和闭环自蒸馏方法，有望提升实际部署中的规划鲁棒性。