ScholarQuest：面向开放文献的学术论文搜索智能体基准

精选理由

想测你的LLM论文搜索智能体？ScholarQuest 给了1000多个主题和4种意图的标准测试，最强方法才0.314召回，你的能提多少？

AI 摘要

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图（方法导向、场景锚定、比较型、范围控制）的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314，在 Recall@All 上为0.355，表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

AI 翻译 · 中文

arXiv cs.AIAcademic paper search is a core step in scientific research, and LLM-based search agents are emerging as a promising paradigm for iterative, intent-driven literature exploration. However, existing benchmarks are insuffic…

阅读原文