PhantomBench：首个大规模“不存在概念”基准，揭示语言模型幻觉率高达86.7%

精选理由

做AI安全或模型评估的团队，这个基准直接戳中了当前模型最致命的弱点——它们连“不存在的东西”都分不清，建议用PhantomBench测测自家模型。

AI 摘要

研究者推出 PhantomBench，这是首个专门评估语言模型对“不存在概念”识别能力的基准，包含超过6万个从真实领域衍生的虚构术语和实体。测试了21个不同规模和类型的模型，发现平均幻觉率高达86.7%，即使是前沿模型在面对预设存在的输入时也几乎无法拒绝回答。该基准可作为研究模型在罕见概念上幻觉行为的代理工具，并提供了可扩展的构建流程。这项工作揭示了模型知识边界认知的严重缺陷，对高风险应用场景构成警示。

AI 翻译 · 中文

arXiv cs.AIHallucinations, where language models (LMs) generate factually ungrounded responses, pose serious risks, as users tend to blindly rely on them. This is particularly concerning in high-stakes domains, where consequences o…

阅读原文