精选理由
Milvus用ColQwen和Qwen3-VL-Embedding做了对比,发现多向量在检索带图表的文档时比稠密向量强近18个点,近似搜索不掉分。处理PDF或扫描件可以关注这个结果。
Milvus在DocVQA上对比ColQwen(多向量)与Qwen3-VL-Embedding(稠密)的检索性能。精确搜索下,ColQwen3的nDCG@10为0.698,比稠密的0.521高17.7个百分点。近似搜索(LEMUR,ratio=5.0)中,ColQwen3得0.704,领先18.3点,且近似损失几乎为零。在MS MARCO等文本基准上,多向量优势被近似搜索抹平。多向量通过保留表格、图表等空间结构获得提升,适合发票、报告等视觉文档。
AI 翻译 · 中文
Milvus在DocVQA上对比ColQwen(多向量)与Qwen3-VL-Embedding(稠密)的检索性能。精确搜索下,ColQwen3的nDCG@10为0.698,比稠密的0.521高17.7个百分点。近似搜索(LEMUR,ratio=5.0)中,ColQwen3得0.704,领先18.3点,且近似损失几乎为零。在MS MARCO等文本基准上,多向量优势被近似搜索抹平。多向量通过保留表格、图表等空间结构获得提升,适合发票、报告等视觉文档。
In text retrieval, multi-vector's advantage is conditional. On short documents and simple queries, approximation usually erases its lead over dense. Visual documents flip that: multi-vector beat the dense baseline by…