15:37Decoder@Jonathan Kemper精选北京大学研究人员发现,GPT、Gemini等主流AI模型在文档分析中经常给出正确答案,但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”,在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题,团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性,对依赖AI进行事实核查的用户具有警示意义。论文归因幻觉CiteVQAGPTGemini事实核查推荐理由:做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源,北大这个新基准能帮你识别这类风险,建议点开了解如何防范。原文