论文精选

智能体数据检索:语义元数据 vs 无结构网页,谁更胜一筹?

Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval

精选理由

做数据驱动智能体或自动化工作流的团队,这篇论文直接告诉你该不该依赖语义元数据——结论是结构化数据仍是可靠执行的基石,值得点开看具体精度对比。

AI 摘要

一项新研究对比了智能体在两种环境下检索数据的效果:基线智能体搜索数十亿网页,语义智能体利用 schema.org 元数据检索 9000 万数据集。结果显示,语义智能体在检索可操作数据方面精度更高,元数据丰富注册表的精度提升 44.9%,机器可读下载页面的精度提升 46.6%。基线智能体虽然覆盖更广(多回答 40% 的问题),但常返回散文式页面或门户登录页,导致“最后一英里”失效。研究认为,无结构检索适合探索性任务,而结构化元数据生态是可靠自动化工作流的基础。

AI 翻译 · 中文

一项新研究对比了智能体在两种环境下检索数据的效果:基线智能体搜索数十亿网页,语义智能体利用 schema.org 元数据检索 9000 万数据集。结果显示,语义智能体在检索可操作数据方面精度更高,元数据丰富注册表的精度提升 44.9%,机器可读下载页面的精度提升 46.6%。基线智能体虽然覆盖更广(多回答 40% 的问题),但常返回散文式页面或门户登录页,导致“最后一英里”失效。研究认为,无结构检索适合探索性任务,而结构化元数据生态是可靠自动化工作流的基础。

arXiv cs.AIIn the era of autonomous agents, machine-actionable data is critical for data-driven workflows. For more than a decade, semantic metadata like schema.org has anchored the FAIR principles (Findable, Accessible, Interopera