论文精选

PGT:程序化生成任务提升MLLM视觉定位能力

PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs

精选理由

PGT用低成本数据生成解决了MLLM细粒度视觉理解的瓶颈,做多模态模型训练或评估的团队可以直接用这个框架提升定位能力,值得一试。

AI 摘要

多模态大语言模型在细粒度视觉理解上仍有不足。研究者提出PGT框架,通过在图像上叠加几何基元生成密集监督信号,分离视觉定位与语义先验。实验显示,在LLaVA-v1.5-Instruct上加入PGT数据后,What'sUp基准提升20%,CV-Bench-2D提升13.3%,且不影响通用感知能力。在先进MLLM上微调也带来最高8.3%的提升。结果表明,许多空间推理缺陷源于监督信号不足,而非架构或分辨率限制。

AI 翻译 · 中文

多模态大语言模型在细粒度视觉理解上仍有不足。研究者提出PGT框架,通过在图像上叠加几何基元生成密集监督信号,分离视觉定位与语义先验。实验显示,在LLaVA-v1.5-Instruct上加入PGT数据后,What'sUp基准提升20%,CV-Bench-2D提升13.3%,且不影响通用感知能力。在先进MLLM上微调也带来最高8.3%的提升。结果表明,许多空间推理缺陷源于监督信号不足,而非架构或分辨率限制。

arXiv cs.AIDespite remarkable progress in Multimodal Large Language Models (MLLMs), these models still struggle with fine-grained understanding tasks. In this work, we propose Procedurally Generated Tasks (PGT), a simple data-drive