04:42Gary Marcus@GaryMarcus精选一项使用1720亿token的测试发现,LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%,强模型通常为5%-7%,中等模型约25%。当上下文扩展到200K时,所有模型编造率至少10%。研究表明幻觉不仅源于检索失败,模型在事实缺失时仍过度自信回答。论文LLM幻觉文档问答上下文长度RAG推荐理由:别以为用文档就能让LLM老老实实回答,1.19%的幻觉率也是定时炸弹,尤其长上下文风险更高。原文
00:36Milvus@milvusio精选单个1-5分的RAG质量评分会隐藏严重问题:一个回答90%基于文档,但10%虚构核心参数就不可用,平均分仍显示4分。幻觉分布也不均匀,数值查找或多条件问题类型的幻觉率远高于平均,不按类型分桶就看不到偏差。优化答案相关性时,添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识,降低忠实度。更可靠的方法是声明级评估:将回答拆成原子事实,用NLI模型检查每个声明是否被检索内容支撑,计算接地率,并对关键参数设置硬性阻断。按问题类型分桶评分,Milvus可用标量字段直接过滤分析,不依赖额外报表管线。技巧RAGMilvus评估幻觉声明级评估推荐理由:如果你在用RAG做生产系统,这篇讲透了为什么平均分不靠谱,还给了按声明颗粒度和问题类型精准监测的方法,连Milvus怎么分桶都说了,很实用。原文
10:13Gary Marcus@GaryMarcusGary Marcus 指出,大语言模型(LLM)产生“胡扯”(bullshit)的根本原因并非训练数据中的错误,而是系统概率性重构信息的方式。即使训练数据完全干净,LLM 仍会因概率机制产生幻觉,法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知,强调模型架构本身的局限性。Marcus 认为,减少训练数据中的错误只能部分缓解问题,无法根除。论文LLM幻觉概率重构Gary MarcusAI 安全推荐理由:Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思,做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。原文
06:36rohanpaul_ai@rohanpaul_ai72°Google 新论文指出,大语言模型的幻觉问题根源不在于回答错误,而在于错误时仍显得过于自信。论文提出应将目标从追求完美事实性转向让模型诚实表达自身不确定性,即“忠实的不确定性”。作者认为,模型缺乏的不是知识,而是对自身认知的元认知能力。对于智能体而言,不确定性感知能决定何时搜索、何时信任来源、何时停止,比工具本身更重要。论文LLM幻觉不确定性元认知Google推荐理由:这篇论文点破了 LLM 幻觉的核心矛盾——不是知识不够,而是不知道什么时候该说“不确定”。做 AI 产品、智能体或对话系统的团队,看完会对“诚实比正确更重要”有更深理解,建议直接读原文。原文