12:10arXiv cs.AI@Paul Jünger, Justin Lovelace, Linxi Zhao, Dongyoung Go, Kilian Q. Weinberger精选离散扩散语言模型通过并行去噪生成文本,每一步会预测掩码位置的候选词,并丢弃低置信度的预测。研究者发现这些丢弃的token实际上包含有用的前瞻信号,能提前揭示关键实体,从而在输出最终确定前检索到更强证据。基于此,他们提出了SARDI(自增强检索扩散语言模型),一种无需训练、与检索器无关的动态RAG框架。在五个多跳问答基准测试中,SARDI以高达8倍的吞吐量超越了当前无需训练的扩散和自回归检索基线。论文扩散语言模型检索增强生成多跳问答SARDI无需训练推荐理由:SARDI巧妙利用了扩散模型去噪过程中的“废料”token,为RAG提供了一种零成本的前瞻信号,做问答系统或检索增强生成的团队值得关注,可以直接集成到现有扩散模型中提升效果。原文
12:02arXiv cs.AI@Yuyang Li, Zihe Yan, Tobias Käfer多跳问答系统通常对每个问题都进行昂贵的检索,包括分解问题、多轮检索或搜索桥接实体,这增加了LLM调用的token成本。但分析发现,许多多跳问题通过单次RAG就能正确回答,因此对每个问题都进行额外检索浪费了预算。RASER是一种基于单次RAG和六个特征构建的廉价路由器,RASER-2决定是停止还是升级到PRUNE(额外检索),RASER-3在单次RAG、PRUNE和迭代检索IRCoT之间选择,且不额外调用LLM。在六个LLM和三个基准测试中,RASER在F1得分上与SOTA基线竞争,但token消耗仅为始终PRUNE的41-49%,且低于迭代和分解检索基线。论文多跳问答RAG路由检索优化成本控制推荐理由:RASER解决了多跳问答中检索成本过高的问题,做RAG系统或问答管线的开发者可以直接用这个轻量路由器来节省token预算,同时保持准确率。原文
10:33arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin精选ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统,通过残差量化k-means和形式概念分析构建模糊概念图,显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上,ContextRAG仅需30次LLM调用和22,073个token完成索引,而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%,多跳任务F1为36.8%。分析表明,检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。论文RAG图构建多跳问答形式概念分析效率优化推荐理由:做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销,多跳问答效果还更好,做知识密集型问答的开发者值得一试。原文