论文精选72°

PhantomBench:首个大规模“不存在概念”基准,揭示语言模型幻觉率高达86.7%

PhantomBench: Benchmarking the Non-existential Threat of Language Models

精选理由

做AI安全或模型评估的团队,这个基准直接戳中了当前模型最致命的弱点——它们连“不存在的东西”都分不清,建议用PhantomBench测测自家模型。

AI 摘要

研究者推出 PhantomBench,这是首个专门评估语言模型对“不存在概念”识别能力的基准,包含超过6万个从真实领域衍生的虚构术语和实体。测试了21个不同规模和类型的模型,发现平均幻觉率高达86.7%,即使是前沿模型在面对预设存在的输入时也几乎无法拒绝回答。该基准可作为研究模型在罕见概念上幻觉行为的代理工具,并提供了可扩展的构建流程。这项工作揭示了模型知识边界认知的严重缺陷,对高风险应用场景构成警示。

AI 翻译 · 中文

研究者推出 PhantomBench,这是首个专门评估语言模型对“不存在概念”识别能力的基准,包含超过6万个从真实领域衍生的虚构术语和实体。测试了21个不同规模和类型的模型,发现平均幻觉率高达86.7%,即使是前沿模型在面对预设存在的输入时也几乎无法拒绝回答。该基准可作为研究模型在罕见概念上幻觉行为的代理工具,并提供了可扩展的构建流程。这项工作揭示了模型知识边界认知的严重缺陷,对高风险应用场景构成警示。

arXiv cs.AIHallucinations, where language models (LMs) generate factually ungrounded responses, pose serious risks, as users tend to blindly rely on them. This is particularly concerning in high-stakes domains, where consequences o