15:37Decoder@Jonathan Kemper精选北京大学研究人员发现,GPT、Gemini等主流AI模型在文档分析中经常给出正确答案,但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”,在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题,团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性,对依赖AI进行事实核查的用户具有警示意义。论文归因幻觉CiteVQAGPTGemini事实核查推荐理由:做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源,北大这个新基准能帮你识别这类风险,建议点开了解如何防范。原文
17:01marktechpost@Asif Razzaq精选70°微软研究院推出Webwright,一个终端原生的浏览器Agent框架,用可复用的Playwright脚本替代点击追踪式网页自动化。该框架仅用约1000行代码和三个模块的单Agent循环,在长程任务基准Odysseys上达到60.1%,远高于基础GPT-5.4的33.5%。在Online-Mind2Web上得分86.7%,是开源测试方案中AutoEval最高分。AI模型AgentMCP/工具开源/仓库大模型GPT推荐理由:微软开源了能跑60%的Web Agent框架原文