UniDrive:面向自动驾驶可解释风险理解的统一视觉语言与定位框架

UniDrive: A Unified Vision-Language and Grounding Framework for Interpretable Risk Understanding in Autonomous Driving

精选理由

这个框架把时序推理和高分辨率感知结合起来,在DRAMA-Reasoning上碾压了现有方法,还能零样本泛化到NuScenes和BDD100K,代码也开源了,做自动驾驶可解释性研究的值得一看。

AI 摘要

UniDrive是一个统一视觉语言与定位框架,旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态,并通过高分辨率感知分支从最新帧保留细粒度空间细节,两者经门控交叉注意力融合模块集成。基于融合表示,UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上,UniDrive在描述和风险对象定位上均优于基于图像和视频的基线,并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出,人类评级的可解释性和可信度也更高。

AI 翻译 · 中文

UniDrive是一个统一视觉语言与定位框架,旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态,并通过高分辨率感知分支从最新帧保留细粒度空间细节,两者经门控交叉注意力融合模块集成。基于融合表示,UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上,UniDrive在描述和风险对象定位上均优于基于图像和视频的基线,并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出,人类评级的可解释性和可信度也更高。

arXiv cs.AIRecent multimodal large language models (MLLMs) have shown strong potential for autonomous driving scene understanding, yet existing methods still face a fundamental trade-off between temporal reasoning and spatial preci