6月26日
11:34
11:34arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang
论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。
推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。
6月16日
09:44
09:44arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen
OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道,可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集,覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距,尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后,在真实场景中性能得到提升。
推荐理由:想研究交通场景的多模态推理?OmniTraffic提供了大规模可控数据集和基准,还能用模拟数据微调小模型提升真实表现,很实用。