全部 AI 动态 · AI 热点

5月28日

19:59

Qdrant@qdrant_engine

Qdrant 将于 6 月 11 日举办 Vector Space Meetup，主题为“智能体时代的检索”。活动将探讨 RAG 作为生产级 AI 架构基础，以及检索如何从被动查询演变为智能体主动决策的过程。参与者包括 Cognee、n8n、deepset 和 LlamaIndex 等团队，Qdrant 联合创始人兼 CTO 也将出席。活动采用问答驱动形式，聚焦开发者关心的实际问题。

行业 RAG 智能体 Qdrant 向量数据库 Meetup

推荐理由：RAG 正在从静态检索进化到智能体主动决策，做 AI 应用开发的团队值得参与这场由一线构建者主导的讨论，直接听到实战经验。

原文

01:11

Milvus@milvusio

长期运行的 RAG 系统最危险的 bug 不是单次错误答案，而是错误被反复检索、强化，最终被系统当作事实。CRAG（Corrective RAG）通过在检索和生成之间加入轻量级评估步骤，对文档进行置信度评分（0.9 以上直接使用，0.5-0.9 补充网络搜索，低于 0.5 丢弃），并在下次检索前预过滤掉低分内容，从而打破“检索→存储→强化”的恶性循环。CRAG 需要向量数据库支持动态存储置信度、混合检索和分区键，Milvus 原生支持这些能力。

AI产品 RAG CRAG Milvus 向量数据库 AI工程

推荐理由：做 RAG 系统的开发者最怕错误被反复放大，CRAG 用简单评估机制切断雪球效应，值得在长期运行的生产环境中试试。

原文

5月27日

01:38

Milvus@milvusio

传统 RAG 管道无法区分不同年份的文档，向量搜索按语义而非时间排序，导致过时结果与最新内容混在一起。CRAG（Corrective RAG）通过在检索和生成之间增加一个评估步骤来解决这个问题：轻量级模型对检索结果打分，当结果不准确或模糊时，自动转向网络搜索获取最新信息。Milvus 向量数据库支持多租户隔离、混合检索和灵活模式，适合部署 CRAG 的生产环境。

AI产品 RAG CRAG 向量数据库 Milvus 信息检索

推荐理由：CRAG 解决了 RAG 系统的时间感知痛点，做知识库问答或实时信息检索的团队可以直接参考 Milvus 的实现方案。

原文

5月26日

07:40

AI Engineer@aiDotEngineer

Neo4j 的 Steve 在视频中解释了为什么基于图的上下文是智能体系统的下一个突破。传统 RAG 只能检索文档，而上下文图可以检索关系，为智能体提供更丰富的结构化信息。这种方法有望提升智能体在复杂任务中的推理和决策能力。视频展示了图数据库在 AI 系统中的实际应用价值。

AI产品 RAG 图数据库智能体 Neo4j 上下文检索

推荐理由：做智能体或 RAG 系统的开发者，图上下文能解决关系理解瓶颈，值得看看 Neo4j 的实战思路。

原文

01:10

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容，包含116页幻灯片，系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战，以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者，这是一份宝贵的历史脉络和实战经验总结。

AI产品 RAG 智能体文档解析检索增强 LlamaIndex

推荐理由：想理解RAG和AI智能体从2023到2026的完整进化路径？这份116页幻灯片是绝佳教材，做检索增强生成或智能体开发的团队值得收藏。

原文

00:52

Milvus@milvusio

精选

RAG 管道常犯一个错误：把语义相似度当成相关性，导致返回主题相近但实际不匹配的结果。CRAG（Corrective RAG）通过引入评估步骤，在检索后对文档进行相关性评分，并分三条路径处理：正确则精炼使用，模糊则补充网络搜索，错误则丢弃并回退搜索。评估器使用微调后的 T5-Large 模型，比通用 LLM 更快更精准。CRAG 能有效拦截 Apache 指南回答 Nginx 配置这类错误，确保生成只基于真正相关的内容。

论文 RAG CRAG 检索增强生成相关性评估 Milvus

推荐理由：做 RAG 系统的团队终于有了解决检索错配的实用方案——CRAG 在检索后加一道评估关卡，直接过滤掉相似但不相关的文档。做知识库问答或搜索增强应用的开发者，值得看看这个改进管道的方法。

原文

5月21日

15:51

Milvus@milvusio

精选

Milvus团队指出，传统RAG在智能体工作流中表现不佳，存在单次检索遗漏上下文、相似性不等于相关性、缺乏检索质量检查、单一策略不适用所有查询等问题。但RAG并未死亡，而是进化成了Agentic RAG，通过查询路由、混合检索、检索评估（如Corrective RAG）和多步检索来解决上述问题。生产中的教训是：检索层必须匹配工作负载，架构越复杂越难维护。文章提供了更深入的架构建议。

AI模型 RAG Agentic RAG 检索增强生成智能体工作流 Milvus

推荐理由：做智能体应用的团队会发现传统RAG的痛点被精准戳中，Agentic RAG的改进方案直接可用，建议点开看看具体架构设计。

原文

00:26

Weaviate@weaviate_io

精选

Weaviate 1.37 版本新增了最大边际相关性（MMR）算法，用于解决向量搜索中返回高度相似重复结果的问题。通过一个参数 selection= Diversity.MMR(limit=5, balance=0.5)，算法在每次选择结果时惩罚与已选结果过于相似的候选，确保最终结果既相关又多样。balance 参数可调节多样性与相关性的权重，0.0 为最大多样性，1.0 为标准搜索。该功能适用于所有 near_* 查询，特别适合检索密集型智能体和标准 RAG 管道，能有效利用上下文窗口，避免浪费 slots。

AI产品向量搜索 MMR Weaviate RAG 检索多样性

推荐理由：做 RAG 或智能体检索的团队，终于不用被五个语义相同的 chunk 塞满上下文了——Weaviate 的 MMR 一行参数就能让结果既相关又多样，值得直接上手试。

原文

5月20日

15:58

arXiv cs.AI@Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang

精选

BalanceRAG 提出了一种针对级联检索增强生成（RAG）系统的联合风险校准方法。传统级联RAG会先尝试仅用大模型回答，不确定时再启用RAG，但各阶段独立校准可能过于保守。BalanceRAG 将阈值对视为二维网格上的操作点，通过序贯图形测试识别安全操作点，实现系统级错误率控制。该方法支持多风险校准，能在保证风险水平的同时保留更多样本，减少不必要的检索调用。在多个开放域问答基准测试中，BalanceRAG 在满足预设风险水平的前提下，提高了覆盖率和正确样本接受数。

论文 RAG 风险校准级联系统问答大模型

推荐理由：做RAG系统优化的团队终于有了一个能精确控制风险与检索成本的校准工具——BalanceRAG 用联合阈值替代逐级保守校准，在保证准确率的同时减少不必要的检索调用，建议做问答系统的开发者点开看看。

原文

10:33

arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin

精选

ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统，通过残差量化k-means和形式概念分析构建模糊概念图，显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上，ContextRAG仅需30次LLM调用和22,073个token完成索引，而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%，多跳任务F1为36.8%。分析表明，检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。

论文 RAG 图构建多跳问答形式概念分析效率优化

推荐理由：做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销，多跳问答效果还更好，做知识密集型问答的开发者值得一试。

原文

10:29

arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge

精选72°

EngiAI 是一个针对大型语言模型（LLM）在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度：工作流基准（7种提示风格，涵盖直接工具使用、语义消歧、条件分支等）、检索增强生成（RAG）基准（通过门控评分隔离检索对参数选择的贡献）以及高性能计算（HPC）基准（评估SLURM集群上的端到端ML训练编排）。EngiAI 参考实现基于LangGraph，通过监督架构协调7个专业智能体，统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上，专有模型平均任务完成率达96-97%，而开源4B参数模型为55-78%，条件分支任务最具挑战性（Photonics2D上完成率降至20-53%）。RAG门控验证了检索增强评分接近完美（≈1.0），而无检索时接近零，HPC编排中一个模型100%完成所有步骤，另一个仅50%，揭示了多步骤指令遵循在长工作流中会退化。

论文多智能体系统工程设计基准测试 LangGraph RAG

推荐理由：做工程设计自动化或LLM多智能体系统的开发者，这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板，建议直接参考EngiAI框架来测试自己的方案。

原文

5月19日

17:01

Qdrant@qdrant_engine

Qdrant 官方指出，真正的检索系统需要结合语义搜索、元数据过滤、结构化约束和快速查询执行。他们发布了一篇深度文章，详细讲解如何在生产环境中使用 Qdrant 的深度查询过滤功能。这打破了“向量搜索=嵌入”的简单认知，强调了多维度过滤对检索质量的重要性。对于构建 RAG 系统的开发者来说，这是提升准确性和效率的关键实践。

AI产品 Qdrant 向量搜索 RAG 元数据过滤检索系统

推荐理由：做 RAG 或搜索系统的团队，别再只靠嵌入向量了——Qdrant 这篇实战指南教你用元数据过滤和结构化约束提升检索精度，值得直接参考。

原文

5月18日

11:47

Jerry Liu@jerryjliu0

精选

PwC发布论文《Is Grep All You Need?》，研究Agent搜索中不同检索工具的效果。他们让Agent同时使用向量搜索和grep，发现grep在准确率上普遍优于语义搜索。论文测试了多种Agent框架（包括Claude Code、Codex），但局限在于检索对象是对话记忆而非企业文档。作者认为Agent框架确实简化了检索问题，但仍有改进空间。

论文 Agent搜索 grep 语义搜索 RAG PwC

推荐理由：这篇论文挑战了“语义搜索是Agent标配”的直觉，做Agent检索或RAG的开发者值得一读，看完可能会重新审视你的检索策略。

原文

5月13日

21:35

21:35Anthropic: Engineering（资讯）

Anthropic 发布 Contextual Retrieval 技术，通过为每个文本块添加上下文说明，显著提升检索增强生成（RAG）的准确性。传统 RAG 中，孤立文本块常因缺乏上下文导致检索错误，而 Contextual Retrieval 利用 Claude 模型为每个块生成简短描述，使检索更精准。该方法结合 BM25 和嵌入搜索，在多个基准测试中错误率降低 67%。Anthropic 还提供了高效实现指南，包括使用 prompt caching 降低 1.6% 的成本。

AI模型 RAG Contextual Retrieval Anthropic Claude 检索增强

推荐理由：做 RAG 应用的开发者终于有了解决上下文丢失问题的实用方案，错误率直降 67%，建议直接看实现指南。

原文

09:12

AlphaSignal@AlphaSignalAI

Cocoindex 是一个开源引擎，解决了 AI Agent 上下文过期的问题。它通过增量处理，只重新索引变化的数据，使嵌入、摘要和知识图谱在亚秒级保持最新。该引擎像 React 一样工作，声明期望的输出状态后自动同步源数据，仅重新计算差异部分。它还提供语义搜索、调用图追踪和架构视图等功能，帮助开发者快速构建生产级 Agent。

AI产品 Agent 开源/仓库 RAG Embedding Cocoindex

推荐理由：Cocoindex 通过增量处理机制，显著提升了 AI Agent 处理动态数据的效率，适合需要实时上下文的开发场景。

原文

00:33

00:33Google Developers Blog（博客/媒体）

Google博客分享将脆弱的销售研究原型重构为生产级AI智能体的经验，基于Agent Development Kit (ADK)。通过用编排子智能体替代单体脚本，并使用Pydantic结构化输出，消除了静默失败和脆弱解析问题。文章强调动态RAG管道和OpenTelemetry可观测性对确保AI智能体可扩展、低成本且透明至关重要。

技巧智能体 MCP/工具 Google ADK 可观测性 RAG

推荐理由：本文提供了实用的工程经验，尤其适合正在将AI原型投入生产的开发者，展示了结构化设计和监控的重要性。

原文

00:33

00:33Google Developers Blog（博客/媒体）

70°

Google 宣布 Gemini Embedding 2 正式可用，该模型能将文本、图像、视频、音频和文档映射到统一的语义空间，支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能，支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。

AI模型 Gemini Embedding 2 多模态智能体向量嵌入 RAG

推荐理由：对需要跨模态语义搜索和智能体构建的开发者而言，Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量，值得关注其在实际部署中的表现。

原文

5月12日

19:11

arXiv: OpenAI@Sietse Schelpe

70°

本预印本实证分析了检索增强生成管道中字节级块去重的效果，涵盖三种不同模式：干净学术检索（22.2M BeIR段落字节减少0.16%）、构造企业模式（24.03%减少）和多轮对话AI（80.34%减少）。通过跨供应商5评委校准面板评估，使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API，应用五类别人工噪声去除协议，证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明，无需牺牲评估级模型质量即可实现大量推理计算节省。

论文 RAG 去重/优化推理效率质量评估开源/仓库

推荐理由：该研究为RAG系统提供了一种确定性、无质量折损的优化方法，直接减少了推理计算成本，对实际部署具有明确指导意义。

原文