ELVA:通过排名驱动缓解多模态检索中的粒度盲视

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

精选理由

这篇论文提出了ELVA,用强化学习思路改多模态检索,解决了对比学习忽略粒度的问题,还在新基准MRBench上提了13.1%,值得做检索方向的人看看。

AI 摘要

ELVA提出一种基于规则强化学习(RLVR)的框架,解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型,通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估,作者引入新基准MRBench,专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果,并在MRBench上实现13.1%的提升。

AI 翻译 · 中文

ELVA提出一种基于规则强化学习(RLVR)的框架,解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型,通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估,作者引入新基准MRBench,专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果,并在MRBench上实现13.1%的提升。

arXiv cs.AILeveraging Multimodal Large Language Models (MLLMs) via contrastive learning has become a mainstream paradigm for improving the performance of Universal Multimodal Retrieval (UMR). However, previous works have ignored th