01:36Milvus@milvusio精选Milvus指出,仅看平均Recall@5(如85%)会掩盖真实问题。例如,精确术语查询的Recall@5可能只有40%,其他类别拉高了平均值。文章建议将测试用例分为精确术语查询、多跳问题、长尾问题、不可回答问题、权限过滤问题五类,每类至少放5-10个案例分别检查召回率。这样能精准定位检索堆栈中的薄弱环节。技巧Milvus召回率检索评估查询类型向量数据库推荐理由:Milvus教你怎样真正看懂你的召回率——按5种查询类型拆解,别被一个平均数字骗了。原文