ScholarQuest:面向开放文献的学术论文搜索智能体基准

ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

精选理由

想测你的LLM论文搜索智能体?ScholarQuest 给了1000多个主题和4种意图的标准测试,最强方法才0.314召回,你的能提多少?

AI 摘要

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

AI 翻译 · 中文

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

arXiv cs.AIAcademic paper search is a core step in scientific research, and LLM-based search agents are emerging as a promising paradigm for iterative, intent-driven literature exploration. However, existing benchmarks are insuffic