ELVA：通过排名驱动缓解多模态检索中的粒度盲视

精选理由

这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

AI 摘要

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI 翻译 · 中文

arXiv cs.AILeveraging Multimodal Large Language Models (MLLMs) via contrastive learning has become a mainstream paradigm for improving the performance of Universal Multimodal Retrieval (UMR). However, previous works have ignored th…

阅读原文