09:56arXiv cs.LG@Khan Raiyan Ibne Reza, Omar Ibne ShahidKrishokChat是首个基于引文的孟加拉语农业咨询指令微调数据集,从129份领域手册中提取290个层次化知识节点。利用分区种子生成矩阵扩展为139,200个监督微调对,并增强5,300个化学品安全和1,000个对抗安全实例,总计145,500个QA对覆盖18种作物类别。引入Farmer Benchmark包含1,001个真实农民查询用于评估。在Gemma-4-E2B上评估发现,微调提升结构化格式,但独立模型仍难准确泛化化学剂量。论文KrishokChatGemma-4-E2B孟加拉语农业咨询RAG推荐理由:做农业AI的朋友看过来!KrishokChat是首个孟加拉语农业咨询的引文数据集,提供14.5万条QA对和Farmer基准,比直接微调更适合做RAG。原文
09:40arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken论文介绍了Falco eleonorae,一个面向希腊小岛农民的双语(希腊语主、英语次)对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成,并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入(使用欧盟流式语音转文字服务)和图像描述(由视觉模型处理),并设计为渐进式Web应用以适应低带宽环境。作者论证,对于资源受限的农村部署,这种托管式检索增强方案比自托管模型更可靠且更易实现。论文Falco eleonoraeGPT-5MCP/工具多模态RAG5 个信源在谈推荐理由:OpenAI的GPT-5给希腊农民做了个接地气的AI助手,能说方言、看图、查作物日历,比通用聊天更实用。原文
09:53arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi论文使用Qwen2.5-7B-Instruct对比了零样本、仅SFT、仅RAG和SFT+RAG混合四种方法在安大略住宅租赁法条文引用上的效果。混合方法以0.481精确匹配(节+条)取得最高分,且将幻觉降至零。SFT提升了高召回候选集中条款选择的鲁棒性,而仅用bge-small嵌入就超越了更大专用检索模型。扩大训练集未带来提升,0.70目标尚未达到。论文Qwen2.5-7BRAGSFT零幻觉法律引用推荐理由:这篇论文用Qwen2.5-7B做了个四路对比,发现微调加检索混合方案在法条引用上精确匹配0.481还零幻觉,比纯微调或纯检索都强,而且用轻量bge-small就够用。原文
09:37arXiv: OpenAI@Jose Manuel Suarez, Luis Mariano Bibbo, Joaquin Bogado, Alenandro Fernandez论文提出一种结合大语言模型与检索增强生成(RAG)的混合方法,自动迁移Qiskit代码版本。该方法利用自动生成的迁移场景分类作为结构化的版本特定知识源。实验评估了Google Gemini Flash-2.5和OpenAI Gpt-oss-20b两种模型,在限制性检索方案下显著减少幻觉,提升描述质量。Google Gemini Flash-2.5在检测复杂重构场景中表现更优。研究证实了数据驱动方法在量子软件工程中的潜力。论文Qiskit代码迁移RAGGoogle Gemini Flash-2.5量子软件工程10 个信源在谈推荐理由:量子开发者福音!用LLM+RAG自动搞定Qiskit代码跨版本迁移,减少手动返工。Google Gemini Flash-2.5效果最佳,值得看看。原文
09:31arXiv: DeepSeek@Esteban Schafir, Xu Zheng, Hojat Allah Salehi, Zhuomin Chen, Mo Sha, Wei Cheng, Dongsheng Luo精选DecoSearch是一个无需训练的Text-to-SQL框架,通过轻量级Schema Selector修剪数据库模式,LLM Judger判断查询是否需要分解为DAG子问题。在BIRD上达到70.53%执行准确率,在Spider上达88.31%,使用DeepSeek作为骨干模型,比训练无关基线消耗少一个数量级的token。该方法还可作为模型无关包装器,一致提升微调后的SQL生成骨干性能。AI模型DecoSearchDeepSeekText-to-SQL推理模型RAG推荐理由:DecoSearch不用训练就能把自然语言转SQL,在BIRD和Spider上准确率分别超70%和88%,比同类方法省十倍token。想提升SQL生成效率可以看看。原文
09:52arXiv cs.LG@Weihang Su, Jiacheng Kang, Jingyan Xu, Qingyao Ai, Jianming Long, Hanwen Zhang, Bangde Du, Xinyuan Cao, Min Zhang, Yiqun Liu论文提出ReGrad(Retrievable Gradients)范式,将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库,推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题,引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明,ReGrad优于CPT和RAG基线,实现可扩展且可逆的参数化知识注入,不累积权重漂移。论文ReGradCPTRAG持续学习可检索梯度推荐理由:这篇论文提出了ReGrad,把梯度当知识存起来,推理时才取用,不破坏原有模型参数,效果比CPT和RAG都好。原文
12:49arXiv cs.AI@Hudson de Martim精选本文指出,检索增强生成(RAG)在法律AI中的失败并非简单的模型幻觉,而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发,提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性,并对应识别出三种检索病理:整体性盲视、历时性盲视和因果不透明性。通过分析现有方法,作者认为它们未能将这些要求视为共同构成性因素,并提出了四个确定性设计方向:本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题,而非下游任务。论文RAG法律AI知识检索架构分析确定性设计推荐理由:法律AI从业者终于有了一个严肃的理论框架来理解RAG的失败原因——不是模型不够大,而是检索架构与法律知识的本质不匹配。做法律科技或合规自动化的团队,建议仔细读读这篇,能帮你避开很多坑。原文
10:29arXiv: DeepSeek@Jianguo Zhu精选研究者发现了一种针对检索增强生成(RAG)系统的新型间接提示注入攻击模式,称为DACSI(文档作者控制信号冒充)。攻击者通过编写看似元数据、来源或策略信号的文档文本,让模型误将其视为可信的控制指令,从而绕过安全边界。该攻击无需显式命令,利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明,该攻击在多数模型上有效,尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。论文RAG提示注入安全攻击DeepSeekQwen推荐理由:RAG系统开发者需要警惕这种低成本、隐蔽的间接注入方式——它不依赖命令,而是冒充元数据,做AI安全的团队建议仔细看论文中的缓解方案。原文
12:09arXiv: DeepSeek@Jianguo Zhu精选本文研究了在上下文增强的语言模型系统中,使用不同话语角色标签(如 Reference:、Evidence:、Instruction:、Note:、Example:)对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针,每个项目在相同误导性断言下使用不同标签,测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上,误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳,而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率,嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签,因为呈现方式会改变对提供上下文的依赖度量。论文语言模型上下文利用RAG标签影响误导采纳率推荐理由:这篇论文揭示了标签选择能显著改变模型对误导信息的采纳率(最高差 84 个百分点),做 RAG 系统或上下文增强应用的开发者需要警惕:你用的标签可能无意中放大了错误信息的影响。建议点开了解如何控制这一变量。原文
12:02arXiv cs.AI@Yuyang Li, Zihe Yan, Tobias Käfer多跳问答系统通常对每个问题都进行昂贵的检索,包括分解问题、多轮检索或搜索桥接实体,这增加了LLM调用的token成本。但分析发现,许多多跳问题通过单次RAG就能正确回答,因此对每个问题都进行额外检索浪费了预算。RASER是一种基于单次RAG和六个特征构建的廉价路由器,RASER-2决定是停止还是升级到PRUNE(额外检索),RASER-3在单次RAG、PRUNE和迭代检索IRCoT之间选择,且不额外调用LLM。在六个LLM和三个基准测试中,RASER在F1得分上与SOTA基线竞争,但token消耗仅为始终PRUNE的41-49%,且低于迭代和分解检索基线。论文多跳问答RAG路由检索优化成本控制推荐理由:RASER解决了多跳问答中检索成本过高的问题,做RAG系统或问答管线的开发者可以直接用这个轻量路由器来节省token预算,同时保持准确率。原文
15:58arXiv cs.AI@Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang精选BalanceRAG 提出了一种针对级联检索增强生成(RAG)系统的联合风险校准方法。传统级联RAG会先尝试仅用大模型回答,不确定时再启用RAG,但各阶段独立校准可能过于保守。BalanceRAG 将阈值对视为二维网格上的操作点,通过序贯图形测试识别安全操作点,实现系统级错误率控制。该方法支持多风险校准,能在保证风险水平的同时保留更多样本,减少不必要的检索调用。在多个开放域问答基准测试中,BalanceRAG 在满足预设风险水平的前提下,提高了覆盖率和正确样本接受数。论文RAG风险校准级联系统问答大模型推荐理由:做RAG系统优化的团队终于有了一个能精确控制风险与检索成本的校准工具——BalanceRAG 用联合阈值替代逐级保守校准,在保证准确率的同时减少不必要的检索调用,建议做问答系统的开发者点开看看。原文
10:33arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin精选ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统,通过残差量化k-means和形式概念分析构建模糊概念图,显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上,ContextRAG仅需30次LLM调用和22,073个token完成索引,而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%,多跳任务F1为36.8%。分析表明,检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。论文RAG图构建多跳问答形式概念分析效率优化推荐理由:做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销,多跳问答效果还更好,做知识密集型问答的开发者值得一试。原文
10:29arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge精选72°EngiAI 是一个针对大型语言模型(LLM)在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度:工作流基准(7种提示风格,涵盖直接工具使用、语义消歧、条件分支等)、检索增强生成(RAG)基准(通过门控评分隔离检索对参数选择的贡献)以及高性能计算(HPC)基准(评估SLURM集群上的端到端ML训练编排)。EngiAI 参考实现基于LangGraph,通过监督架构协调7个专业智能体,统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上,专有模型平均任务完成率达96-97%,而开源4B参数模型为55-78%,条件分支任务最具挑战性(Photonics2D上完成率降至20-53%)。RAG门控验证了检索增强评分接近完美(≈1.0),而无检索时接近零,HPC编排中一个模型100%完成所有步骤,另一个仅50%,揭示了多步骤指令遵循在长工作流中会退化。论文多智能体系统工程设计基准测试LangGraphRAG推荐理由:做工程设计自动化或LLM多智能体系统的开发者,这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板,建议直接参考EngiAI框架来测试自己的方案。原文
19:11arXiv: OpenAI@Sietse Schelpe70°本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。原文