精选理由
想测你的LLM论文搜索智能体?ScholarQuest 给了1000多个主题和4种意图的标准测试,最强方法才0.314召回,你的能提多少?
ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。
AI 翻译 · 中文
ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。
Academic paper search is a core step in scientific research, and LLM-based search agents are emerging as a promising paradigm for iterative, intent-driven literature exploration. However, existing benchmarks are insuffic…