11:37arXiv cs.AI@Xiaowei Gao, Pengxiang Li, Yitai Cheng, Ruihan Xu, James Haworth, Stephen Law, Yun YeUniDrive是一个统一视觉语言与定位框架,旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态,并通过高分辨率感知分支从最新帧保留细粒度空间细节,两者经门控交叉注意力融合模块集成。基于融合表示,UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上,UniDrive在描述和风险对象定位上均优于基于图像和视频的基线,并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出,人类评级的可解释性和可信度也更高。论文UniDrive自动驾驶DRAMA-Reasoning多模态大模型零样本泛化推荐理由:这个框架把时序推理和高分辨率感知结合起来,在DRAMA-Reasoning上碾压了现有方法,还能零样本泛化到NuScenes和BDD100K,代码也开源了,做自动驾驶可解释性研究的值得一看。原文