全部 AI 动态 · AI 热点

6月26日

10:40

10:40

arXiv cs.LG@Nicklas Hansen, Xiaolong Wang

该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域，并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集（427小时、210个任务），并训练了350M参数的世界模型。他们识别了三种幻觉模式（感知、动作边缘化、场景发散），开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。

论文 MMBench2 世界模型幻觉数据覆盖 OpenAI

推荐理由：这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题，还给出了实用的检测和缓解方法。

04:42

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

00:36

00:36

Milvus@milvusio

精选

单个1-5分的RAG质量评分会隐藏严重问题：一个回答90%基于文档，但10%虚构核心参数就不可用，平均分仍显示4分。幻觉分布也不均匀，数值查找或多条件问题类型的幻觉率远高于平均，不按类型分桶就看不到偏差。优化答案相关性时，添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识，降低忠实度。更可靠的方法是声明级评估：将回答拆成原子事实，用NLI模型检查每个声明是否被检索内容支撑，计算接地率，并对关键参数设置硬性阻断。按问题类型分桶评分，Milvus可用标量字段直接过滤分析，不依赖额外报表管线。

技巧 RAG Milvus 评估幻觉声明级评估

推荐理由：如果你在用RAG做生产系统，这篇讲透了为什么平均分不靠谱，还给了按声明颗粒度和问题类型精准监测的方法，连Milvus怎么分桶都说了，很实用。

6月25日

22:22

22:22

Decoder@Maximilian Schreiner

保险公司开始使用扩散模型等生成式AI技术进行灾难建模，可生成数万个历史数据中不存在的合理天气事件。他们希望借此进行更精确的风险评估。然而研究人员警告称，AI生成的模拟事件可能存在幻觉和销售逻辑误导，影响实际决策准确性。

行业保险公司生成式AI 灾难建模幻觉风险评估

推荐理由：保险公司用生成式AI做灾害建模，能补历史数据缺漏，但小心AI幻觉和销售套路，实际效果还得看验证。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:41

10:41

arXiv cs.LG@Miso Choi, Seonga Choi, Mincheol Kwon, Woosung Joung, Jinkyu Kim, Jungbeom Lee

论文发现，在Vicuna、Qwen2.5、LLaMA2和Mistral等模型家族中，上下文的真实性评分（Truth Scores）在指令微调或多模态适配后高度保留，与其注意头权重继承一致。作者提出TruthProbe软门控策略，通过放大上下文真实头而保留其他头贡献，在HaluEval上提升上下文真实性，并在POPE和CHAIR上减少多模态幻觉。基础LLM的真实头评分有效传递给微调后的LLM和多模态LLM后代。代码已开源。

论文 TruthProbe Vicuna Qwen2.5 多模态幻觉

推荐理由：这篇论文挺有意思，发现模型家族里真实头会继承，搞了个TruthProbe来减少幻觉，效果不错，适合研究模型可解释性和幻觉问题的人看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:31

11:31

arXiv cs.AI@Haeji Jung, Hila Gonen

精选72°

研究者推出 PhantomBench，这是首个专门评估语言模型对“不存在概念”识别能力的基准，包含超过6万个从真实领域衍生的虚构术语和实体。测试了21个不同规模和类型的模型，发现平均幻觉率高达86.7%，即使是前沿模型在面对预设存在的输入时也几乎无法拒绝回答。该基准可作为研究模型在罕见概念上幻觉行为的代理工具，并提供了可扩展的构建流程。这项工作揭示了模型知识边界认知的严重缺陷，对高风险应用场景构成警示。

论文幻觉基准测试模型评估知识边界 AI安全

推荐理由：做AI安全或模型评估的团队，这个基准直接戳中了当前模型最致命的弱点——它们连“不存在的东西”都分不清，建议用PhantomBench测测自家模型。

5月29日

10:13

10:13

Gary Marcus@GaryMarcus

Gary Marcus 指出，大语言模型（LLM）产生“胡扯”（bullshit）的根本原因并非训练数据中的错误，而是系统概率性重构信息的方式。即使训练数据完全干净，LLM 仍会因概率机制产生幻觉，法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知，强调模型架构本身的局限性。Marcus 认为，减少训练数据中的错误只能部分缓解问题，无法根除。

论文 LLM 幻觉概率重构 Gary Marcus AI 安全

推荐理由：Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思，做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。

5月26日

06:36

06:36

rohanpaul_ai@rohanpaul_ai

72°

Google 新论文指出，大语言模型的幻觉问题根源不在于回答错误，而在于错误时仍显得过于自信。论文提出应将目标从追求完美事实性转向让模型诚实表达自身不确定性，即“忠实的不确定性”。作者认为，模型缺乏的不是知识，而是对自身认知的元认知能力。对于智能体而言，不确定性感知能决定何时搜索、何时信任来源、何时停止，比工具本身更重要。

论文 LLM 幻觉不确定性元认知 Google

推荐理由：这篇论文点破了 LLM 幻觉的核心矛盾——不是知识不够，而是不知道什么时候该说“不确定”。做 AI 产品、智能体或对话系统的团队，看完会对“诚实比正确更重要”有更深理解，建议直接读原文。

5月15日

22:35

22:35IT之家（博客/媒体）

科技媒体9to5Google在评测谷歌Fitbit Air健身手环时，发现其付费AI健康教练Health Coach存在虚构跑步记录的情况。该AI捏造了一段5.2英里（约8.4公里）的跑步记录，并在被指出后反怪用户可能漏记。这一幻觉问题削弱了Health Coach的可靠性，考虑到其每月10美元（约68元人民币）的订阅费用，当前表现难以让用户放心付费。谷歌仍有时间在5月19日应用正式上线前优化模型，降低幻觉概率。

AI产品谷歌 Fitbit Air AI健康教练幻觉付费订阅

推荐理由：AI健康教练的幻觉问题直接挑战付费订阅价值，健身手环用户和AI健康应用开发者值得关注——谷歌能否在正式上线前修复这一致命缺陷。

5月13日

21:36

21:36Simon Willison’s Weblog（博客/媒体）

纽约时报发布编辑注，承认一篇报道中错误地将 AI 生成的摘要当作加拿大保守党领袖 Pierre Poilievre 的真实引文。该 AI 工具生成了对 Poilievre 政治观点的总结，并以引号形式呈现，记者未核实其准确性。文章现已更正，引用了 Poilievre 在 4 月演讲中的真实内容。此事件凸显了 AI 在新闻业中可能引发的幻觉和事实核查风险。

行业 AI 伦理幻觉新闻业事实核查纽约时报

推荐理由：新闻编辑室和内容创作者必须警惕 AI 工具生成虚假引文的风险——纽约时报的这次失误是活生生的教训，做事实核查的团队建议仔细看。