OmniTraffic:面向时空交通推理的可控生成管道与基准测试

OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning

精选理由

想研究交通场景的多模态推理?OmniTraffic提供了大规模可控数据集和基准,还能用模拟数据微调小模型提升真实表现,很实用。

AI 摘要

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道,可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集,覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距,尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后,在真实场景中性能得到提升。

AI 翻译 · 中文

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道,可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集,覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距,尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后,在真实场景中性能得到提升。

arXiv cs.AITraffic scene understanding requires models to reason beyond object recognition, including lane topology, multi-view geometry, temporal evolution, and signal-phase semantics. However, existing traffic-oriented multimodal