全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

11:32

11:32

arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

精选72°

研究团队发现，基于LLM的搜索智能体在BrowseComp基准测试中，高达44.5%的问题无需工具即可回答，超过一半的搜索查询来自内部假设而非检索线索，表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后，智能体表现甚至不如闭卷基线。为此，团队推出了LiveBrowseComp，一个包含335个依赖90天内发布事实的问题的深度搜索基准，所有智能体在该基准上的闭卷准确率低于2%，搜索增强得分比BrowseComp下降25-40点，且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。

论文搜索智能体基准测试内在知识依赖 LLM评估 LiveBrowseComp

推荐理由：这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队，值得看看LiveBrowseComp这个新基准，避免被静态测试误导。