全部 AI 动态 · AI 热点

6月26日

04:42

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

00:36

00:36

Milvus@milvusio

精选

单个1-5分的RAG质量评分会隐藏严重问题：一个回答90%基于文档，但10%虚构核心参数就不可用，平均分仍显示4分。幻觉分布也不均匀，数值查找或多条件问题类型的幻觉率远高于平均，不按类型分桶就看不到偏差。优化答案相关性时，添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识，降低忠实度。更可靠的方法是声明级评估：将回答拆成原子事实，用NLI模型检查每个声明是否被检索内容支撑，计算接地率，并对关键参数设置硬性阻断。按问题类型分桶评分，Milvus可用标量字段直接过滤分析，不依赖额外报表管线。

技巧 RAG Milvus 评估幻觉声明级评估

推荐理由：如果你在用RAG做生产系统，这篇讲透了为什么平均分不靠谱，还给了按声明颗粒度和问题类型精准监测的方法，连Milvus怎么分桶都说了，很实用。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

10:13

10:13

Gary Marcus@GaryMarcus

Gary Marcus 指出，大语言模型（LLM）产生“胡扯”（bullshit）的根本原因并非训练数据中的错误，而是系统概率性重构信息的方式。即使训练数据完全干净，LLM 仍会因概率机制产生幻觉，法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知，强调模型架构本身的局限性。Marcus 认为，减少训练数据中的错误只能部分缓解问题，无法根除。

论文 LLM 幻觉概率重构 Gary Marcus AI 安全

推荐理由：Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思，做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。

5月26日

06:36

06:36

rohanpaul_ai@rohanpaul_ai

72°

Google 新论文指出，大语言模型的幻觉问题根源不在于回答错误，而在于错误时仍显得过于自信。论文提出应将目标从追求完美事实性转向让模型诚实表达自身不确定性，即“忠实的不确定性”。作者认为，模型缺乏的不是知识，而是对自身认知的元认知能力。对于智能体而言，不确定性感知能决定何时搜索、何时信任来源、何时停止，比工具本身更重要。

论文 LLM 幻觉不确定性元认知 Google

推荐理由：这篇论文点破了 LLM 幻觉的核心矛盾——不是知识不够，而是不知道什么时候该说“不确定”。做 AI 产品、智能体或对话系统的团队，看完会对“诚实比正确更重要”有更深理解，建议直接读原文。