PGT：程序化生成任务提升MLLM视觉定位能力

精选理由

PGT用低成本数据生成解决了MLLM细粒度视觉理解的瓶颈，做多模态模型训练或评估的团队可以直接用这个框架提升定位能力，值得一试。

AI 摘要

多模态大语言模型在细粒度视觉理解上仍有不足。研究者提出PGT框架，通过在图像上叠加几何基元生成密集监督信号，分离视觉定位与语义先验。实验显示，在LLaVA-v1.5-Instruct上加入PGT数据后，What'sUp基准提升20%，CV-Bench-2D提升13.3%，且不影响通用感知能力。在先进MLLM上微调也带来最高8.3%的提升。结果表明，许多空间推理缺陷源于监督信号不足，而非架构或分辨率限制。

AI 翻译 · 中文

arXiv cs.AIDespite remarkable progress in Multimodal Large Language Models (MLLMs), these models still struggle with fine-grained understanding tasks. In this work, we propose Procedurally Generated Tasks (PGT), a simple data-drive…

阅读原文