AI搜索智能体常确认已知信息而非真正研究网络

精选理由

这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队，看完会重新评估工具选择。

AI 摘要

哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现，主流AI搜索智能体（如GPT-5.4和Kimi K2.6）在标准测试中表现良好，但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件，迫使模型无法依赖记忆。在此测试下，模型性能显著下降，现有排名被打乱。这表明AI搜索智能体存在“确认偏差”，即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。

AI 翻译 · 中文

DecoderLeading AI search agents like GPT-5.4 and Kimi K2.6 don't appear to do much actual research on established benchmarks. They mostly just use the web to confirm what they already learned during training. Researchers at the…

阅读原文