全部 AI 动态 · AI 热点

6月25日

00:15

Milvus@milvusio

精选

Milvus团队指出LLM在RAG中频繁引用了不支持的来源。引文失败分为两类：忠实性错误（生成内容与检索文档不符，如模型声称150W功耗但文档只说低功耗）和引文准确性错误（元数据映射错误、缺失引用、幽灵引用、弱支持引用、过度引用）。其中幽灵引用常因索引重建后ID过期导致。修复方案因错误类型而异：忠实性问题调整生成层约束或基座模型，引文准确性问题需工程层修复元数据管理。

技巧 RAG 引文忠实性检索增强生成 Milvus

推荐理由：别总怪模型了，很多引文错误出在工程层。这篇文章帮你分清五种引文故障，对症下药。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

22:28

Qdrant@qdrant_engine

Qdrant 发布了一项基准测试，比较了两种方法：直接将大量上下文发送给 LLM，以及使用 Qdrant 的两步检索管道仅获取最相关信息。结果显示，更大的上下文窗口会增加成本和延迟，而检索有助于减少 LLM 所需的上下文量，同时保持答案质量。随着上下文窗口的增长，检索不会消失，反而对效率、可扩展性和控制变得更加重要。

AI产品向量搜索 Qdrant 检索增强生成上下文窗口基准测试

推荐理由：做 RAG 或向量搜索的团队会关心这个关键权衡——大上下文窗口并非万能，检索仍是降本增效的核心手段，建议点开看具体数据。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

18:42

Qdrant@qdrant_engine

距离 Vector Space Meetup 在柏林举办还有一周。活动主题是“智能体时代的检索”，探讨智能体需要什么样的检索能力。现代智能体不再只是找最近片段，还需要决定何时搜索、搜索什么、使用哪些工具以及检索信息是否足够行动。活动将邀请来自 cognee、deepset、LlamaIndex 和 n8n 的构建者进行小组讨论，并由 Qdrant 联合创始人兼 CTO 发表主题演讲。活动将于6月11日在柏林 AI Campus 举行，需注册审批。

行业智能体检索增强生成向量数据库 Meetup Qdrant

推荐理由：智能体开发者都在头疼检索问题——什么时候搜、搜什么、够不够用？这场 Meetup 把 cognee、deepset、LlamaIndex 和 n8n 的构建者聚在一起，直接回答你的疑问。做 RAG 或智能体系统的建议报名，现场还能和 Qdrant CTO 交流。

原文

6月3日

23:35

Milvus@milvusio

固定长度分块将文档切成512或1024 tokens的块，但可能把完整答案切半导致检索不完整。滑动窗口分块用50-100 tokens重叠避免断句，但会产生重复块挤占检索结果。语义分块按段落、标题或章节分割保持语义完整，但只适用于格式规整的文档。Milvus建议对技术文档用语义分块+滑动窗口兜底，对话记录用大重叠固定分块，API文档按章节分块。

技巧 Milvus RAG 文档分块检索增强生成

推荐理由：Milvus教你按文档类型选分块方法

原文

6月1日

10:55

rohanpaul_ai@rohanpaul_ai

精选

一项新研究评估了商业AI聊天机器人在新闻问答中的表现，发现其在多选题上准确率超过90%，能回答几小时前的事件。然而，这种成功很脆弱：当需要自由回答、使用印地语或问题包含错误假设时，性能大幅下降。超过70%的错误源于检索失败或来源偏差，即系统找到了接近但不精确的证据，然后忠实但错误地回答。研究指出，这些模型并非因“不会思考”而失败，而是因定位到错误证据。这揭示了AI作为新闻中介的可靠性问题，提醒用户不要被高准确率迷惑。

论文 AI聊天机器人新闻问答检索增强生成可靠性评估

推荐理由：做新闻聚合或信息检索的开发者，这篇论文戳破了AI聊天机器人的“可靠”假象——高准确率不等于可信赖，自由回答和跨语言场景下漏洞明显，值得点开看看你的系统是否也踩了同样的坑。

原文

5月30日

11:47

Milvus@milvusio

精选

Claude Opus 4.8 提升了编码智能体的独立工作能力、判断力和自我检查能力，使其不再只是生成代码片段，而是能规划变更、调用工具、编辑文件、检查输出，并在同一工作流中持续更长时间。这种变化改变了检索的角色：智能体检索错误上下文会导致后续计划、工具调用、代码修改和记忆都出错。因此，检索不能仅停留在“找几个相似片段”，而需要相关、新鲜、有范围且可追溯的上下文。Milvus 等向量数据库通过混合搜索、元数据过滤和生产级上下文访问，为智能体提供高质量的检索层。

AI产品 Claude Opus 4.8 编码智能体检索增强生成向量数据库 Milvus

推荐理由：Claude Opus 4.8 让编码智能体更自主，但检索质量成为瓶颈——做智能体开发或 RAG 的团队，建议关注 Milvus 如何解决上下文精准问题。

原文

5月29日

00:46

Milvus@milvusio

当 RAG 系统给出错误答案时，团队通常第一时间换更大的模型或调 prompt，但 Milvus 团队指出，真正该先修的是检索环节。他们提出一个三步诊断法：先按查询类型（精确术语、多跳、长尾、不可回答）构建黄金测试集，然后按桶计算 Recall@k，最后根据弱桶定位问题——精确术语桶低说明稠密检索对精确字符串有盲点，应加混合搜索；多跳桶低说明答案被切分或候选集太小；长尾桶低说明用户措辞与文档术语不匹配，需加查询改写；所有桶都低则说明嵌入模型不适合领域。这种方法能精准定位检索失败的具体原因，而非笼统地认为“召回率差”。

AI产品 RAG 检索增强生成 Milvus 诊断方法召回率

推荐理由：做 RAG 的团队别再盲目换大模型了——Milvus 这篇诊断法帮你精准定位检索瓶颈，从精确术语到长尾查询都有对应解法，建议直接收藏实操。

原文

5月28日

21:00

LlamaIndex@llama_index

精选

文章指出grep词法搜索在小代码库或文档文件夹中足够，但在企业环境中面对数百万PDF、电子表格和扫描文档时无法读取、不扩展且忽略同义词。作者分析grep的优势和局限，解释为什么RAG和语义搜索在企业规模下是必要的。最后介绍如何分层结合词法搜索与语义搜索来获得最佳效果。

技巧 grep RAG 语义搜索检索增强生成

推荐理由：教你如何搭配grep和RAG做搜索

原文

5月26日

00:52

Milvus@milvusio

精选

RAG 管道常犯一个错误：把语义相似度当成相关性，导致返回主题相近但实际不匹配的结果。CRAG（Corrective RAG）通过引入评估步骤，在检索后对文档进行相关性评分，并分三条路径处理：正确则精炼使用，模糊则补充网络搜索，错误则丢弃并回退搜索。评估器使用微调后的 T5-Large 模型，比通用 LLM 更快更精准。CRAG 能有效拦截 Apache 指南回答 Nginx 配置这类错误，确保生成只基于真正相关的内容。

论文 RAG CRAG 检索增强生成相关性评估 Milvus

推荐理由：做 RAG 系统的团队终于有了解决检索错配的实用方案——CRAG 在检索后加一道评估关卡，直接过滤掉相似但不相关的文档。做知识库问答或搜索增强应用的开发者，值得看看这个改进管道的方法。

原文

5月21日

15:51

Milvus@milvusio

精选

Milvus团队指出，传统RAG在智能体工作流中表现不佳，存在单次检索遗漏上下文、相似性不等于相关性、缺乏检索质量检查、单一策略不适用所有查询等问题。但RAG并未死亡，而是进化成了Agentic RAG，通过查询路由、混合检索、检索评估（如Corrective RAG）和多步检索来解决上述问题。生产中的教训是：检索层必须匹配工作负载，架构越复杂越难维护。文章提供了更深入的架构建议。

AI模型 RAG Agentic RAG 检索增强生成智能体工作流 Milvus

推荐理由：做智能体应用的团队会发现传统RAG的痛点被精准戳中，Agentic RAG的改进方案直接可用，建议点开看看具体架构设计。

原文