00:36Milvus@milvusio精选单个1-5分的RAG质量评分会隐藏严重问题:一个回答90%基于文档,但10%虚构核心参数就不可用,平均分仍显示4分。幻觉分布也不均匀,数值查找或多条件问题类型的幻觉率远高于平均,不按类型分桶就看不到偏差。优化答案相关性时,添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识,降低忠实度。更可靠的方法是声明级评估:将回答拆成原子事实,用NLI模型检查每个声明是否被检索内容支撑,计算接地率,并对关键参数设置硬性阻断。按问题类型分桶评分,Milvus可用标量字段直接过滤分析,不依赖额外报表管线。技巧RAGMilvus评估幻觉声明级评估推荐理由:如果你在用RAG做生产系统,这篇讲透了为什么平均分不靠谱,还给了按声明颗粒度和问题类型精准监测的方法,连Milvus怎么分桶都说了,很实用。原文