论文精选

ETCHR:解耦图像编辑与理解,提升多模态推理能力

ETCHR: Editing To Clarify and Harness Reasoning

精选理由

做多模态推理或视觉问答的开发者,ETCHR 提供了一种无需微调即可提升模型准确率的思路,值得在现有工作流中试试。

AI 摘要

多模态大语言模型在视觉推理上虽有进步,但纯文本思维链在处理需要精细关注或视角变换的问题时仍是瓶颈。现有“用图像思考”的方法要么受限于固定工具集,要么产生噪声中间图像。ETCHR 提出第三种方案:使用专用图像编辑模型,并将其与理解模型解耦。它通过两阶段训练(推理模仿和推理增强)解决语言侧和生成侧的差距,使编辑器能根据问题主动进行视觉变换。实验表明,ETCHR 在五个任务族上平均提升 Pass@1 约 5 个百分点,且可即插即用于多种开源和闭源多模态模型。

AI 翻译 · 中文

多模态大语言模型在视觉推理上虽有进步,但纯文本思维链在处理需要精细关注或视角变换的问题时仍是瓶颈。现有“用图像思考”的方法要么受限于固定工具集,要么产生噪声中间图像。ETCHR 提出第三种方案:使用专用图像编辑模型,并将其与理解模型解耦。它通过两阶段训练(推理模仿和推理增强)解决语言侧和生成侧的差距,使编辑器能根据问题主动进行视觉变换。实验表明,ETCHR 在五个任务族上平均提升 Pass@1 约 5 个百分点,且可即插即用于多种开源和闭源多模态模型。

arXiv cs.AIMultimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images''