UniDrive：面向自动驾驶可解释风险理解的统一视觉语言与定位框架

精选理由

这个框架把时序推理和高分辨率感知结合起来，在DRAMA-Reasoning上碾压了现有方法，还能零样本泛化到NuScenes和BDD100K，代码也开源了，做自动驾驶可解释性研究的值得一看。

AI 摘要

UniDrive是一个统一视觉语言与定位框架，旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态，并通过高分辨率感知分支从最新帧保留细粒度空间细节，两者经门控交叉注意力融合模块集成。基于融合表示，UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上，UniDrive在描述和风险对象定位上均优于基于图像和视频的基线，并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出，人类评级的可解释性和可信度也更高。

AI 翻译 · 中文

arXiv cs.AIRecent multimodal large language models (MLLMs) have shown strong potential for autonomous driving scene understanding, yet existing methods still face a fundamental trade-off between temporal reasoning and spatial preci…

阅读原文