精选理由
做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源,北大这个新基准能帮你识别这类风险,建议点开了解如何防范。
北京大学研究人员发现,GPT、Gemini等主流AI模型在文档分析中经常给出正确答案,但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”,在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题,团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性,对依赖AI进行事实核查的用户具有警示意义。
AI 翻译 · 中文
北京大学研究人员发现,GPT、Gemini等主流AI模型在文档分析中经常给出正确答案,但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”,在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题,团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性,对依赖AI进行事实核查的用户具有警示意义。
Leading AI models like GPT and Gemini routinely cite text passages in document analyses that don't actually support their answers. Even when the answer is right, the cited evidence is often wrong. Researchers at Peking U…