精选 AI 资讯 · AI 热点

7月5日

15:58

官方一手marktechpost@Michal Sutter

精选

LlamaIndex 发布 legal-kb，一个基于 Index v2 的公共参考应用，赋予智能体类似文件系统的文档知识库访问能力。它公开了 retrieve（混合语义搜索）、find、read 和 grep 四个工具，并支持自动版本管理和可视化引用。技术栈采用 TanStack Start、AI SDK 6（ToolLoopAgent）、Prisma 和 WorkOS。

AI产品 LlamaIndex legal-kb Index v2 RAG 智能体

推荐理由：LlamaIndex 这个 legal-kb 应用能像操作文件一样搜索文档，用 Index v2 和四种工具，自动版本管理，很好用。

原文

7月3日

12:34

Milvus@milvusio

精选

Milvus 团队观察到，当 Agent 运行在 IM 中时用户使用更多且答案更好，但上下文仍缺失代码、GitHub issues、数据库记录等。MFS 为这些来源提供稳定的类文件路径，让 Agent 像工程师一样先定位再检查原始文件。MFS 将对话、团队知识和外部工具转化为 Agent 可搜索的上下文层。项目已在 GitHub 开源。

AI产品 Milvus MFS 智能体 RAG 开源项目

推荐理由：Milvus 开源了 MFS，能把聊天、代码、文档全串起来给 Agent 查，不用再手工拼上下文了。

原文

09:52

Jerry Liu@jerryjliu0

精选

3年前，Jerry Liu在AI Engineer大会首次演讲高级RAG技术，如今该领域已演变为围绕智能体和上下文的标准化高阶抽象。当前模式包括：将检索复杂性编码到智能体层，使用简单但高效的搜索工具（如BM25、向量搜索），让智能体推理找到正确结果；越来越不关注'破解'上下文窗口，而关注业务上下文；构建智能体的方式从定义代码变为定义剧本再到定义目标。

行业 RAG 智能体上下文窗口 AI Engineer大会 Jerry Liu

推荐理由：Jerry Liu回顾了RAG从3年前到现在的变化，指出检索正被智能体层取代，构建方式也变了。关注RAG和智能体发展的话，这篇总结很值得看。

原文

7月2日

02:21

官方一手AWS Machine Learning Blog@Tanay Chowdhury

精选

HippoRAG是一种受神经生物学启发的检索增强生成方法，结合图数据库和个性化PageRank算法。文章展示了在AWS上使用Amazon Bedrock提供大语言模型能力，Amazon Neptune作为图数据库，Neptune Analytics运行个性化PageRank计算，以及Amazon Titan Embeddings生成向量表示。该实现面向企业级应用，可提升检索的精度与效率。

技巧 HippoRAG Amazon Bedrock Amazon Neptune 个性化PageRank RAG

推荐理由：想在企业级玩转RAG？AWS用Bedrock、Neptune和PageRank搭了一套HippoRAG，让检索更聪明、更精准。

原文

6月30日

14:59

Jerry Liu@jerryjliu0

精选

LlamaIndex 在 LlamaParse 中上线 Retrieval Harness，提供面向 agent 的检索工具集。它支持混合检索（向量搜索与关键词搜索结合，可调 alpha 值）、文件列表（可扩展的 ls 操作）、文件内正则搜索（File Grep）以及文件子段读取（File Read）。该功能已在所有付费 tier 的 beta 版本中可用，可处理从 10 份到 100 万份以上的文档集合。

AI产品 LlamaParse LlamaIndex Retrieval Harness RAG 混合检索

推荐理由：LlamaIndex 给 LlamaParse 加了 Retrieval Harness，让 agent 能同时用语义搜索和 grep，处理百万级文档。想构建高级 RAG 的可以试试。

原文

11:49

官方一手marktechpost@Michal Sutter

精选

本文介绍了6款无代码工具，支持构建企业级RAG系统、多智能体工作流以及微调数百个LLM。这些工具无需编程经验即可快速部署智能应用，显著缩短开发周期。文章逐一解析每款工具的核心功能和适用场景。

技巧无代码工具 RAG 多智能体 LLM微调 AI开发

推荐理由：想不写代码就搞定AI应用？这6个工具能帮你快速搭RAG、调模型，省时又省力。

原文

6月28日

21:45

shao__meng@shao__meng

精选

LoanLens基于LandingAI构建，从6类借款人文档中结构化抽取字段，进行姓名一致性TF-IDF比对（相似度低于0.95告警）和护照篡改检测（比对核心组件位置与参考几何）。评分模型透明可解释：信用权重23%、DTI 23%、收入时效20%等，总分≥60批准，40-59复核，<40拒绝。系统附带仅限当前案件的RAG问答，支持字段溯源与人工检查。

AI产品 LandingAI LoanLens 欺诈检测 RAG 文档理解

推荐理由：这套LoanLens系统把审贷初筛自动化，用结构化字段和可解释评分替代黑盒OCR，欺诈检测能抓文档篡改，审核员能直接查每个字段的证据。

原文

6月26日

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

原文

00:36

Milvus@milvusio

精选

单个1-5分的RAG质量评分会隐藏严重问题：一个回答90%基于文档，但10%虚构核心参数就不可用，平均分仍显示4分。幻觉分布也不均匀，数值查找或多条件问题类型的幻觉率远高于平均，不按类型分桶就看不到偏差。优化答案相关性时，添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识，降低忠实度。更可靠的方法是声明级评估：将回答拆成原子事实，用NLI模型检查每个声明是否被检索内容支撑，计算接地率，并对关键参数设置硬性阻断。按问题类型分桶评分，Milvus可用标量字段直接过滤分析，不依赖额外报表管线。

技巧 RAG Milvus 评估幻觉声明级评估

推荐理由：如果你在用RAG做生产系统，这篇讲透了为什么平均分不靠谱，还给了按声明颗粒度和问题类型精准监测的方法，连Milvus怎么分桶都说了，很实用。

原文

6月25日

06:22

Ate-a-Pi@svpino

精选

Lena开源了一个RAG助手，用于导航航空公司政策，包含完整源代码和视频讲解。该应用使用LangChain构建检索管道，LangGraph管理对话状态，通过pgvector在Postgres中存储嵌入。项目还使用Terraform部署基础设施，索引文档以将答案锚定在源文本上。开发者可以从中学习具体的工程决策和实现细节。

技巧 LangChain LangGraph pgvector RAG 开源项目

推荐理由：Lena把整个RAG应用的源码和讲解视频都开源了，用LangChain+LangGraph搭建，还用了pgvector和Terraform，想学RAG实战的可以直接拿走。

原文

00:15

Milvus@milvusio

精选

Milvus团队指出LLM在RAG中频繁引用了不支持的来源。引文失败分为两类：忠实性错误（生成内容与检索文档不符，如模型声称150W功耗但文档只说低功耗）和引文准确性错误（元数据映射错误、缺失引用、幽灵引用、弱支持引用、过度引用）。其中幽灵引用常因索引重建后ID过期导致。修复方案因错误类型而异：忠实性问题调整生成层约束或基座模型，引文准确性问题需工程层修复元数据管理。

技巧 RAG 引文忠实性检索增强生成 Milvus

推荐理由：别总怪模型了，很多引文错误出在工程层。这篇文章帮你分清五种引文故障，对症下药。

原文

6月24日

07:48

官方一手marktechpost@Asif Razzaq

精选

Mistral AI 于2026年6月23日发布 OCR 4，从纯文本提取升级为结构化文档输出。每个文本块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言，可在单个自托管容器中运行，通过单一API端点向RAG、智能体和企业搜索管道提供可引用的输入。

AI模型 Mistral OCR 4 RAG 智能体企业搜索

推荐理由：Mistral 出了 OCR 4，能提取带边界框和置信度的结构化内容，方便直接用于 RAG 和搜索，支持170种语言还自托管，很实用。

原文

6月21日

14:55

官方一手marktechpost@Sana Hassan

精选

本教程使用 Crawlee for Python 搭建完整的网页爬取工作流。通过 BeautifulSoupCrawler、ParselCrawler 和 PlaywrightCrawler 分别爬取静态与动态内容，提取标题、元数据和产品字段。教程还演示如何构建链接图，并将数据导出为 JSON、CSV 以及 RAG 就绪的 JSONL 分块文件。最后附带 robots 处理与截图功能，从设置到 AI 输出一步到位。

技巧 Crawlee Python BeautifulSoup Parsel Playwright 爬虫 RAG

推荐理由：想用 Python 从零搭一套能把网页内容直接喂给 RAG 的爬虫管道吗？这篇保姆级教程教你用 Crawlee 搞定 robots、截图和分块导出。

原文

6月17日

09:31

官方一手arXiv: DeepSeek@Esteban Schafir, Xu Zheng, Hojat Allah Salehi, Zhuomin Chen, Mo Sha, Wei Cheng, Dongsheng Luo

精选

DecoSearch是一个无需训练的Text-to-SQL框架，通过轻量级Schema Selector修剪数据库模式，LLM Judger判断查询是否需要分解为DAG子问题。在BIRD上达到70.53%执行准确率，在Spider上达88.31%，使用DeepSeek作为骨干模型，比训练无关基线消耗少一个数量级的token。该方法还可作为模型无关包装器，一致提升微调后的SQL生成骨干性能。

AI模型 DecoSearch DeepSeek Text-to-SQL 推理模型 RAG

推荐理由：DecoSearch不用训练就能把自然语言转SQL，在BIRD和Spider上准确率分别超70%和88%，比同类方法省十倍token。想提升SQL生成效率可以看看。

原文

6月16日

16:28

官方一手marktechpost@Asif Razzaq

精选

Google Cloud发布Open Knowledge Format (OKF)，一种供应商中立的Markdown规范，旨在让AI智能体获取经过策划的上下文知识。OKF采用bundle结构——包含YAML frontmatter的Markdown文件目录，每个概念只需指定type字段。该规范遵循三个核心设计原则，并附带参考实现工具。与传统的RAG（检索增强生成）不同，OKF强调知识的结构化与策划，而非纯向量检索。官方还提供了可运行的Python消费示例和交互式bundle探索工具。

行业 OKF Google Cloud AI Agent Markdown RAG

推荐理由：Google Cloud搞了个OKF，用Markdown加YAML给AI Agent喂知识，比RAG更结构化。有代码和工具可直接上手。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

22:17

Qdrant@qdrant_engine

精选

该项目利用 Qdrant Edge 的向量搜索和边缘 RAG 技术，在不训练自定义机器学习模型的情况下实现火灾检测。系统将实时传感器读数与本地已知模式进行比对，实现快速、隐私优先的本地推理。这种方法避免了训练和维护专用模型的负担，适合资源受限的环境。项目展示了边缘计算与向量搜索在实时异常检测中的创新应用。

AI产品 Qdrant Edge 向量搜索边缘计算火灾检测 RAG

推荐理由：做物联网或边缘计算的开发者可以省去模型训练的麻烦——Qdrant Edge 的向量搜索直接匹配已知模式就能检测火灾，隐私和效率都兼顾，值得试试。

原文

6月9日

12:49

官方账号arXiv cs.AI@Hudson de Martim

精选

本文指出，检索增强生成（RAG）在法律AI中的失败并非简单的模型幻觉，而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发，提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性，并对应识别出三种检索病理：整体性盲视、历时性盲视和因果不透明性。通过分析现有方法，作者认为它们未能将这些要求视为共同构成性因素，并提出了四个确定性设计方向：本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题，而非下游任务。

论文 RAG 法律AI 知识检索架构分析确定性设计

推荐理由：法律AI从业者终于有了一个严肃的理论框架来理解RAG的失败原因——不是模型不够大，而是检索架构与法律知识的本质不匹配。做法律科技或合规自动化的团队，建议仔细读读这篇，能帮你避开很多坑。

原文

10:29

官方一手arXiv: DeepSeek@Jianguo Zhu

精选

研究者发现了一种针对检索增强生成（RAG）系统的新型间接提示注入攻击模式，称为DACSI（文档作者控制信号冒充）。攻击者通过编写看似元数据、来源或策略信号的文档文本，让模型误将其视为可信的控制指令，从而绕过安全边界。该攻击无需显式命令，利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明，该攻击在多数模型上有效，尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。

论文 RAG 提示注入安全攻击 DeepSeek Qwen

推荐理由：RAG系统开发者需要警惕这种低成本、隐蔽的间接注入方式——它不依赖命令，而是冒充元数据，做AI安全的团队建议仔细看论文中的缓解方案。

原文

6月4日

12:09

官方一手arXiv: DeepSeek@Jianguo Zhu

精选

本文研究了在上下文增强的语言模型系统中，使用不同话语角色标签（如 Reference:、Evidence:、Instruction:、Note:、Example:）对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针，每个项目在相同误导性断言下使用不同标签，测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上，误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳，而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率，嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签，因为呈现方式会改变对提供上下文的依赖度量。

论文语言模型上下文利用 RAG 标签影响误导采纳率

推荐理由：这篇论文揭示了标签选择能显著改变模型对误导信息的采纳率（最高差 84 个百分点），做 RAG 系统或上下文增强应用的开发者需要警惕：你用的标签可能无意中放大了错误信息的影响。建议点开了解如何控制这一变量。

原文

6月3日

10:51

Weaviate@weaviate_io

精选

Weaviate 指出，RAG Agent 在生产环境中的成败不取决于模型，而取决于系统设计的四个基础层：安全、检索、指令和护栏。许多团队止步于演示阶段，但实际部署中会出现幻觉、输出不一致、安全漏洞等问题。可靠的 Agent 需要在这些层面进行严格设计，才能从演示变成真正可信的系统。文章提供了免费技术指南，涵盖高级 RAG 技术、工作流架构和安全实践。

AI产品 RAG Agent 系统设计安全生产部署

推荐理由：做 RAG 应用的团队别再只盯着模型了——这篇把生产环境踩坑的四个关键层讲透了，建议做 Agent 架构的开发者点开看看，能省不少试错成本。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月26日

01:10

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容，包含116页幻灯片，系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战，以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者，这是一份宝贵的历史脉络和实战经验总结。

AI产品 RAG 智能体文档解析检索增强 LlamaIndex

推荐理由：想理解RAG和AI智能体从2023到2026的完整进化路径？这份116页幻灯片是绝佳教材，做检索增强生成或智能体开发的团队值得收藏。

原文

00:52

Milvus@milvusio

精选

RAG 管道常犯一个错误：把语义相似度当成相关性，导致返回主题相近但实际不匹配的结果。CRAG（Corrective RAG）通过引入评估步骤，在检索后对文档进行相关性评分，并分三条路径处理：正确则精炼使用，模糊则补充网络搜索，错误则丢弃并回退搜索。评估器使用微调后的 T5-Large 模型，比通用 LLM 更快更精准。CRAG 能有效拦截 Apache 指南回答 Nginx 配置这类错误，确保生成只基于真正相关的内容。

论文 RAG CRAG 检索增强生成相关性评估 Milvus

推荐理由：做 RAG 系统的团队终于有了解决检索错配的实用方案——CRAG 在检索后加一道评估关卡，直接过滤掉相似但不相关的文档。做知识库问答或搜索增强应用的开发者，值得看看这个改进管道的方法。

原文

5月21日

15:51

Milvus@milvusio

精选

Milvus团队指出，传统RAG在智能体工作流中表现不佳，存在单次检索遗漏上下文、相似性不等于相关性、缺乏检索质量检查、单一策略不适用所有查询等问题。但RAG并未死亡，而是进化成了Agentic RAG，通过查询路由、混合检索、检索评估（如Corrective RAG）和多步检索来解决上述问题。生产中的教训是：检索层必须匹配工作负载，架构越复杂越难维护。文章提供了更深入的架构建议。

AI模型 RAG Agentic RAG 检索增强生成智能体工作流 Milvus

推荐理由：做智能体应用的团队会发现传统RAG的痛点被精准戳中，Agentic RAG的改进方案直接可用，建议点开看看具体架构设计。

原文

00:26

Weaviate@weaviate_io

精选

Weaviate 1.37 版本新增了最大边际相关性（MMR）算法，用于解决向量搜索中返回高度相似重复结果的问题。通过一个参数 selection= Diversity.MMR(limit=5, balance=0.5)，算法在每次选择结果时惩罚与已选结果过于相似的候选，确保最终结果既相关又多样。balance 参数可调节多样性与相关性的权重，0.0 为最大多样性，1.0 为标准搜索。该功能适用于所有 near_* 查询，特别适合检索密集型智能体和标准 RAG 管道，能有效利用上下文窗口，避免浪费 slots。

AI产品向量搜索 MMR Weaviate RAG 检索多样性

推荐理由：做 RAG 或智能体检索的团队，终于不用被五个语义相同的 chunk 塞满上下文了——Weaviate 的 MMR 一行参数就能让结果既相关又多样，值得直接上手试。

原文

5月20日

15:58

官方账号arXiv cs.AI@Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang

精选

BalanceRAG 提出了一种针对级联检索增强生成（RAG）系统的联合风险校准方法。传统级联RAG会先尝试仅用大模型回答，不确定时再启用RAG，但各阶段独立校准可能过于保守。BalanceRAG 将阈值对视为二维网格上的操作点，通过序贯图形测试识别安全操作点，实现系统级错误率控制。该方法支持多风险校准，能在保证风险水平的同时保留更多样本，减少不必要的检索调用。在多个开放域问答基准测试中，BalanceRAG 在满足预设风险水平的前提下，提高了覆盖率和正确样本接受数。

论文 RAG 风险校准级联系统问答大模型

推荐理由：做RAG系统优化的团队终于有了一个能精确控制风险与检索成本的校准工具——BalanceRAG 用联合阈值替代逐级保守校准，在保证准确率的同时减少不必要的检索调用，建议做问答系统的开发者点开看看。

原文

10:33

官方账号arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin

精选

ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统，通过残差量化k-means和形式概念分析构建模糊概念图，显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上，ContextRAG仅需30次LLM调用和22,073个token完成索引，而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%，多跳任务F1为36.8%。分析表明，检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。

论文 RAG 图构建多跳问答形式概念分析效率优化

推荐理由：做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销，多跳问答效果还更好，做知识密集型问答的开发者值得一试。

原文

10:29

官方账号arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge

精选72°

EngiAI 是一个针对大型语言模型（LLM）在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度：工作流基准（7种提示风格，涵盖直接工具使用、语义消歧、条件分支等）、检索增强生成（RAG）基准（通过门控评分隔离检索对参数选择的贡献）以及高性能计算（HPC）基准（评估SLURM集群上的端到端ML训练编排）。EngiAI 参考实现基于LangGraph，通过监督架构协调7个专业智能体，统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上，专有模型平均任务完成率达96-97%，而开源4B参数模型为55-78%，条件分支任务最具挑战性（Photonics2D上完成率降至20-53%）。RAG门控验证了检索增强评分接近完美（≈1.0），而无检索时接近零，HPC编排中一个模型100%完成所有步骤，另一个仅50%，揭示了多步骤指令遵循在长工作流中会退化。

论文多智能体系统工程设计基准测试 LangGraph RAG

推荐理由：做工程设计自动化或LLM多智能体系统的开发者，这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板，建议直接参考EngiAI框架来测试自己的方案。

原文

5月18日

11:47

Jerry Liu@jerryjliu0

精选

PwC发布论文《Is Grep All You Need?》，研究Agent搜索中不同检索工具的效果。他们让Agent同时使用向量搜索和grep，发现grep在准确率上普遍优于语义搜索。论文测试了多种Agent框架（包括Claude Code、Codex），但局限在于检索对象是对话记忆而非企业文档。作者认为Agent框架确实简化了检索问题，但仍有改进空间。

论文 Agent搜索 grep 语义搜索 RAG PwC

推荐理由：这篇论文挑战了“语义搜索是Agent标配”的直觉，做Agent检索或RAG的开发者值得一读，看完可能会重新审视你的检索策略。

原文