精选理由
这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队,看完会重新评估工具选择。
哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现,主流AI搜索智能体(如GPT-5.4和Kimi K2.6)在标准测试中表现良好,但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件,迫使模型无法依赖记忆。在此测试下,模型性能显著下降,现有排名被打乱。这表明AI搜索智能体存在“确认偏差”,即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。
AI 翻译 · 中文
哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现,主流AI搜索智能体(如GPT-5.4和Kimi K2.6)在标准测试中表现良好,但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件,迫使模型无法依赖记忆。在此测试下,模型性能显著下降,现有排名被打乱。这表明AI搜索智能体存在“确认偏差”,即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。
Leading AI search agents like GPT-5.4 and Kimi K2.6 don't appear to do much actual research on established benchmarks. They mostly just use the web to confirm what they already learned during training. Researchers at the…