11:42arXiv cs.AI@Zilin Xiao, Qi Ma, Chun-cheng Jason Chen, Xintao Chen, Avinash Atreya, Hanjie Chen, Vicente Ordonez传统RAG基于语义相似度检索,不适合复杂推理任务:语义相似的问题可能解法不同,而表面不同的问题可能共享相同推理模式。RA-RFT提出一种后训练框架,通过黄金相关性蒸馏训练检索器,按预期推理收益而非语义重叠排序上下文,再用强化微调方法结合检索到的类比示例微调策略模型,使其学会利用推理轨迹。在数学推理基准上,RA-RFT持续优于标准强化微调方法,例如在AIME 2025上,对Qwen3-1.7B和Qwen3-4B分别提升7.1和2.8个点。这表明推理感知检索是独立于奖励设计或训练课程的改进维度。论文检索增强生成类比推理强化微调数学推理RA-RFT推荐理由:做复杂推理的AI研究者终于有了一个不依赖语义相似度的检索框架——RA-RFT让模型学会类比推理,数学基准提升显著,做RAG或强化微调的团队值得关注。原文
09:15arXiv cs.AI@Dipto Das, Achhiya Sultana, Ankit Singh Chauhan, Saadia Binte Alam, Mohammad Shidujaman, Shion Guha, Sunandan Chakraborty, Syed Ishtiaque Ahmed该论文针对LLM在内容审核中难以识别针对少数族裔(如孟加拉国印度教和查克马社区)的文化隐性歧视问题,提出Mod-Guide系统。研究通过社区合作构建文化敏感语料库,并利用检索增强生成(RAG)将少数群体视角融入审核流程。实验表明,RAG增强的审核响应在文化准确性上显著提升,且不同族群对审核结果的感知存在差异。这项工作为AI伦理和内容审核设计提供了修复性正义和解释学包容的新路径。论文内容审核LLM少数族裔检索增强生成AI伦理推荐理由:内容审核系统常忽视文化隐性歧视,Mod-Guide通过RAG融入少数群体视角,做AI伦理或内容审核的团队值得关注其方法论。原文
12:10arXiv cs.AI@Paul Jünger, Justin Lovelace, Linxi Zhao, Dongyoung Go, Kilian Q. Weinberger精选离散扩散语言模型通过并行去噪生成文本,每一步会预测掩码位置的候选词,并丢弃低置信度的预测。研究者发现这些丢弃的token实际上包含有用的前瞻信号,能提前揭示关键实体,从而在输出最终确定前检索到更强证据。基于此,他们提出了SARDI(自增强检索扩散语言模型),一种无需训练、与检索器无关的动态RAG框架。在五个多跳问答基准测试中,SARDI以高达8倍的吞吐量超越了当前无需训练的扩散和自回归检索基线。论文扩散语言模型检索增强生成多跳问答SARDI无需训练推荐理由:SARDI巧妙利用了扩散模型去噪过程中的“废料”token,为RAG提供了一种零成本的前瞻信号,做问答系统或检索增强生成的团队值得关注,可以直接集成到现有扩散模型中提升效果。原文
10:50arXiv: DeepSeek@Zijie Zhao, Roy E. Welsch精选该研究提出一种面向金融事件驱动RAG的贝叶斯源记忆机制,通过市场反馈(已到期残差收益)动态更新检索来源的信任度,而不微调LLM本身。在FNSPID数据集89只纳斯达克股票上,冻结LLM+源记忆相比无记忆基线,宏F1从0.438提升至0.471,下游投资组合Sharpe比率从0.52跃升至0.84。实验表明,在金融RAG中,学会信任哪些信息来源比学会如何阅读更重要,且该方法简单模块化,可直接适配市场变化。论文金融RAG检索增强生成贝叶斯记忆市场反馈事件驱动推荐理由:金融量化团队终于有了一个不折腾大模型、只优化检索来源就能显著提升收益风险比的方案——Sharpe从0.52到0.84的跃升很实在,做事件驱动策略的可以直接参考这个贝叶斯记忆模块。原文
13:05arXiv: DeepSeek@Dongsheng Shi, Yue Li, Xin Yi, Yongyi Cui, Huawei Feng, Linlin WangSURGENT 是一个面向围手术期全流程的多智能体辅助系统,由 Tree-of-Thought 规划器、多科室协作智能体和检索增强推理模块组成。它通过创新的记忆设计管理长期患者病史和短期工作摘要,解决了大语言模型在手术应用中输入长度限制、记忆不完整和可追溯性差的问题。在病例分析、手术计划模拟、安全监测、并发症风险评估和康复指导五项任务中,SURGENT 表现优于基线 LLM 和现有医疗多智能体框架。消融实验显示,DeepSeek 作为本地可部署的骨干模型,能实现隐私保护部署。该系统为智能、公平且安全的手术辅助提供了实用且可信的进展。论文多智能体系统手术辅助检索增强生成DeepSeek隐私保护推荐理由:SURGENT 解决了手术场景中 AI 辅助的隐私和可追溯性痛点,做医疗 AI 或手术辅助系统的开发者可以直接参考其多智能体架构和记忆设计。原文
12:14arXiv cs.LG@M. Ross Kunz, John Merickel, Keith Wilson该论文提出一种针对数值表格数据集的统计嵌入方法,通过结构化探索性数据分析描述符、预训练句子变换器和典型相关分析(CCA)实现跨数据集相似性检索与可解释对齐。方法无需共享变量名或特征约定,能自动识别驱动对齐的关键统计描述符,并支持差分隐私保护。在15个数据集(涵盖通用基准、材料信息学和核级石墨表征)上评估,P@1分数达0.9,检索和聚类结构鲁棒。该框架为异构数值数据集成到检索增强生成(RAG)流水线提供了统计上下文保留的路径,适用于数据驱动算法选择和模拟模型初始化。论文统计嵌入表格数据典型相关分析检索增强生成差分隐私推荐理由:做数据科学或材料信息学的团队终于有了一个无需统一变量名就能对齐异构表格数据的方法,检索准确率高达0.9还支持隐私保护,做RAG或算法选择的开发者可以直接参考。原文
09:52arXiv: Anthropic@Max Prior, Andreas Schultz, Matthias Grabmair精选大型语言模型在静态知识截止日期与动态法律条文之间存在根本矛盾,导致两种时间失效模式:一是模型在立法修订后仍使用旧规则(后截止日期失效),二是模型偏好新条款而忽略历史版本(近因偏差)。研究者构建了包含312个专家验证的德语法律问答基准,涵盖三类时间敏感问题,并评估了OpenAI、Anthropic和DeepSeek的五种模型。实验发现,在无辅助的推理设置下,模型在后截止日期场景中表现严重下降;检索增强生成(RAG)方法通过提取事实日期和版本过滤显著提升所有问题类型的准确性,而网络搜索则不稳定且加剧近因偏差。研究结论指出,可靠的法律问答必须将时间有效性作为硬约束。论文法律问答时间失效检索增强生成LLM评估法律AI10 个信源在谈推荐理由:法律从业者和AI开发者会关心:LLM 在法律场景中的时间失效问题直接关系到合规风险,RAG 方案已被证明能有效缓解,值得在实务中尝试。原文
09:57arXiv cs.AI@Zhao Yang, Wang Huan, Li Yingshuo, Tu Haomiao, Lin Hujite精选ARPM 是一个外部时序记忆治理框架,旨在解决大语言模型在长程交互中常见的事实丢失、时间线混乱、人格漂移和稳定性下降问题。该框架将静态知识记忆与动态对话经验记忆分离,结合向量检索、BM25、RRF融合、双时序重排序、时序证据阅读和受控分析协议,实现证据验证与答案绑定。实验表明,在50轮问答中,ARPM在1:5信噪比下人工审查召回率达100%,在1:200+下仍达80%;消融实验显示,禁用对话历史检索后严格准确率从100%降至66.7%。该方法将长期人格一致性分解为可治理的组件,支持白盒评估。论文长期记忆人格一致性检索增强生成时序记忆ARPM推荐理由:做对话系统或长期记忆研究的团队,ARPM 把人格一致性从玄学变成了可审计、可迁移的工程问题,值得看看它的实验设计和消融结果。原文