11:49arXiv cs.AI@Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang精选轻量级视觉语言模型在标准基准上表现不错,但在需要多步推理的密集场景中(如多个物体、属性、关系)系统性地失败。为此,研究者首先构建了DRBench基准,包含14,573个问题、2,943张图像,覆盖5类任务和3个推理层次。然后提出DRScaffold框架,通过将监督目标分解为四个因果有序阶段,在不改动模型架构的情况下强制进行有依据的推理。实验表明,使用DRScaffold训练的Qwen2.5-VL-3B在DRBench上超越了冻结的Qwen2.5-VL-32B,证明结构化监督可以替代大量模型规模。代码和模型已开源。论文视觉语言模型密集场景推理DRBenchDRScaffoldQwen2.5-VL推荐理由:轻量级VLM在复杂场景中经常胡编乱造,DRScaffold用结构化监督解决了这个痛点,做视觉推理或部署小模型的团队可以直接用它的框架和基准来提升可靠性。原文