VOL.2026.06.26·63 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月二十六日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
5

华为与湖北移动完成AI推理加速方案现网测试,长序列吞吐率提升372%

官方IT之家原文 ↗

华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构,部署UCM推理记忆数据管理技术,完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下,MiniMax M2.5模型单NPU卡Token输出效率(TPS)提升58%至78%,首Token延迟(TTFT)优化26%~62%。GLM-5.1模型TPS提升56%~372%,其中128K序列下TPS提升达372%,TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache,突破高带宽内存容量限制。

Claude Code + GLM-5.2在211项真实工程任务评测中击败Opus 4.8和GPT-5.5

X·KOLX:Fireworks AI (@FireworksAI_HQ)原文 ↗

Fireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568,每任务耗时321秒,成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元;Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准,更贴近实际开发场景。

02

产品发布/更新

Product
5

Weaviate 1.38 GA:HFresh 索引与 MCP Server 正式上线

X·KOLX:Weaviate (@weaviate_io)原文 ↗

Weaviate 1.38 正式发布,带来 HFresh(GA)磁盘向量索引,支持十亿级动态数据、低内存与可预测延迟,无需定期重建。MCP Server(GA)可让 LLM、IDE 和 AI 代理直接连接 Weaviate,并支持运行时开关写入权限。异步复制重构为单调度器集群执行,默认开启。Boost API(预览)允许查询时轻量调整结果排序,嵌套对象过滤(预览)支持 "cars.make" 路径过滤。此外新增 replica 迁移、服务端用量护栏、text2vec-digitalocean 模块等功能。

Google 推出 Gemini 3.5 Flash Computer Use 工具,支持多平台智能体

X·KOLX:Google AI Developers (@googleaidevs)原文 ↗

Google AI Devs 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用。该工具支持在浏览器、移动和桌面环境中构建可看可操作的智能体,处理长时任务。新增特性包括:内置移动和桌面操作系统支持、所有函数调用的意图参数、可定制客户端函数支持人机交互接管、提示注入检测及可配置安全策略。可用于自动化 QA 测试和业务流程等场景。

03

行业动态

Industry
5

租用智能,但拥有上下文:避免AI供应商锁定企业记忆

X·KOLX:elvis (@omarsar0)原文 ↗

Ashwin Gopinath指出,Anthropic的Claude Tag功能允许用户在Slack中标记Claude,使其跟踪对话、连接工具并执行任务,看似便利实则危险。他认为这会导致上下文锁定,企业的操作记忆(如Slack历史、异常处理路径、客户承诺)被单一供应商捕获,而非模型锁定。一旦人成为公司日常工作的中间层,模型可替换、智能可租用,但公司记忆难以迁移。Gopinath主张租用最佳模型(OpenAI、Anthropic、Gemini等),但自主拥有可检查、可权限、可移植且模型中立的上下文层。

GPT-5.6发布受限:联邦政府要求逐客户审批访问权限

X·KOLX:宝玉 (@dotey)原文 ↗

OpenAI的GPT-5.6因联邦政府要求将以“有限预览”方式发布,仅面向一小部分合作伙伴。政府将逐个客户审批访问权限,这种发布方式在AI行业无先例。Anthropic曾因不配合导致模型被下架,OpenAI的配合更多出于避免类似代价。该机制可能导致公司内部能力与公众可用能力差距扩大。GPT-5.6传闻上下文窗口从100万token扩展到150万,并改进代码能力和多步骤agent任务,但发布时间取决于政府审批节奏。

德国法院裁定Google为AI概览错误承担责任

官方Simon Willison’s Weblog原文 ↗

德国法院近期裁定,Google需对其AI概览中出现的错误承担法律责任。安全专家Bruce Schneier评论称,AI代理本质上是部署者的代理,法律应如此对待。若公司雇佣人类撰写摘要,公司需为内容错误负责;以AI为借口逃避责任将鼓励企业不当行为。该判决可能重塑AI部署者的责任边界,避免企业利用AI低成本且无责的优势取代人类专业岗位。

04

论文研究

Research
3
05

技巧与观点

Tips & Takes
5

RAG评估陷阱:单一平均分可能掩盖幻觉,试试声明级评估

X·KOLX:Milvus (@milvusio)原文 ↗

单个1-5分的RAG质量评分会隐藏严重问题:一个回答90%基于文档,但10%虚构核心参数就不可用,平均分仍显示4分。幻觉分布也不均匀,数值查找或多条件问题类型的幻觉率远高于平均,不按类型分桶就看不到偏差。优化答案相关性时,添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识,降低忠实度。更可靠的方法是声明级评估:将回答拆成原子事实,用NLI模型检查每个声明是否被检索内容支撑,计算接地率,并对关键参数设置硬性阻断。按问题类型分桶评分,Milvus可用标量字段直接过滤分析,不依赖额外报表管线。

63
今日事件
13
一手报道
11
新模型
40
信源
AITOP · 编辑系统自动生成