GPT-5.6受限发布，AI代理基础架构加速

模型发布/更新

Model Releases

5 篇

华为与湖北移动完成AI推理加速方案现网测试，长序列吞吐率提升372%

华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构，部署UCM推理记忆数据管理技术，完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下，MiniMax M2.5模型单NPU卡Token输出效率（TPS）提升58%至78%，首Token延迟（TTFT）优化26%~62%。GLM-5.1模型TPS提升56%~372%，其中128K序列下TPS提升达372%，TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache，突破高带宽内存容量限制。

vLLM 日首发支持 LFM2.5-230M，面向 agent 工作负载

X·KOLX：vLLM (@vllm_project)原文 ↗

vLLM 宣布 Day-0 支持 Liquid AI 的 LFM2.5-230M 小模型。该模型仅 230M 参数，预训练于 19T tokens 且支持 32K 上下文。专为手机、机器人、家庭自动化和网络设备上的 agent 任务设计。可运行于 CPU、NPU 和 GPU 等硬件。

Claude Code + GLM-5.2在211项真实工程任务评测中击败Opus 4.8和GPT-5.5

X·KOLX：Fireworks AI (@FireworksAI_HQ)原文 ↗

Fireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568，每任务耗时321秒，成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元；Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准，更贴近实际开发场景。

GLM-5.2 (Max)在Code Arena前端编码中逼近Claude Fable 5

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Zai_org的GLM系列在Code Arena: Frontend基准上持续增长，GLM-4.6得分1408，GLM-5.2 (Max)达到1595，超越Opus 4.8并逼近Claude Fable 5的1665分。GLM-5.2 (Max)是该实验室最强的编码模型，在HTML/React真实任务上缩小了与前沿实验室的差距。该模型为开源发布。

Gemini 3.5 Flash 原生支持计算机使用

X·KOLX：Google DeepMind (@GoogleDeepMind)原文 ↗

Google DeepMind 宣布 Gemini 3.5 Flash 新增原生计算机使用能力。开发者可利用该内置工具构建能跨浏览器、移动端和桌面界面观察并执行操作的定制智能体。该功能无需额外适配即可直接操控 GUI 元素。

产品发布/更新

Product

5 篇

Weaviate 1.38 GA：HFresh 索引与 MCP Server 正式上线

X·KOLX：Weaviate (@weaviate_io)原文 ↗

Weaviate 1.38 正式发布，带来 HFresh（GA）磁盘向量索引，支持十亿级动态数据、低内存与可预测延迟，无需定期重建。MCP Server（GA）可让 LLM、IDE 和 AI 代理直接连接 Weaviate，并支持运行时开关写入权限。异步复制重构为单调度器集群执行，默认开启。Boost API（预览）允许查询时轻量调整结果排序，嵌套对象过滤（预览）支持 "cars.make" 路径过滤。此外新增 replica 迁移、服务端用量护栏、text2vec-digitalocean 模块等功能。

ElevenLabs集成SynthID水印，推出免费音频检测器

X·KOLX：ElevenLabs (@elevenlabsio)原文 ↗

ElevenLabs与Google DeepMind合作，将SynthID数字水印嵌入其生成的音频中。该水印人耳不可听，但可通过ElevenLabs Audio Detector检测。该检测器免费开放，用于识别AI生成的音频内容。此举针对日益逼真的AI语音，提升内容可追溯性。

OpenRouter 推出 MCP 服务，为 AI 代理提供实时模型定价与基准数据

X·KOLX：OpenRouter (@OpenRouterAI)原文 ↗

OpenRouter 正式推出官方 MCP 服务，让 AI 代理能实时查询模型定价、基准成绩和流行度数据。该服务可避免代理在代码中硬编码错误的模型 slug。视频演示显示代理能够动态选择模型、获取价格并测试性能。这使代理不再依赖六个月前的训练数据猜测模型选择。

ASI:One个人代理接入2.8M+代理市场，AgentRank算法排序

X·KOLX：Ate-a-Pi (@svpino)原文 ↗

Fetch.ai推出ASI:One个人代理，可访问Agentverse市场中的280万个专业代理。AgentRank算法类似Google PageRank，根据代理间调用关系动态排名。用户无需付费或注册即可通过网页免费试用。系统让个人代理自动选择最优专业代理完成任务，无需手动设置。

Google 推出 Gemini 3.5 Flash Computer Use 工具，支持多平台智能体

X·KOLX：Google AI Developers (@googleaidevs)原文 ↗

Google AI Devs 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用。该工具支持在浏览器、移动和桌面环境中构建可看可操作的智能体，处理长时任务。新增特性包括：内置移动和桌面操作系统支持、所有函数调用的意图参数、可定制客户端函数支持人机交互接管、提示注入检测及可配置安全策略。可用于自动化 QA 测试和业务流程等场景。

行业动态

Industry

5 篇

租用智能，但拥有上下文：避免AI供应商锁定企业记忆

X·KOLX：elvis (@omarsar0)原文 ↗

Ashwin Gopinath指出，Anthropic的Claude Tag功能允许用户在Slack中标记Claude，使其跟踪对话、连接工具并执行任务，看似便利实则危险。他认为这会导致上下文锁定，企业的操作记忆（如Slack历史、异常处理路径、客户承诺）被单一供应商捕获，而非模型锁定。一旦人成为公司日常工作的中间层，模型可替换、智能可租用，但公司记忆难以迁移。Gopinath主张租用最佳模型（OpenAI、Anthropic、Gemini等），但自主拥有可检查、可权限、可移植且模型中立的上下文层。

GPT-5.6发布受限：联邦政府要求逐客户审批访问权限

X·KOLX：宝玉 (@dotey)原文 ↗

OpenAI的GPT-5.6因联邦政府要求将以“有限预览”方式发布，仅面向一小部分合作伙伴。政府将逐个客户审批访问权限，这种发布方式在AI行业无先例。Anthropic曾因不配合导致模型被下架，OpenAI的配合更多出于避免类似代价。该机制可能导致公司内部能力与公众可用能力差距扩大。GPT-5.6传闻上下文窗口从100万token扩展到150万，并改进代码能力和多步骤agent任务，但发布时间取决于政府审批节奏。

OpenAI内部各部门用Codex Agent改变工作方式

X·KOLX：OpenAI (@OpenAI)原文 ↗

OpenAI官方透露，公司内部所有部门正在使用Codex Agent完成更复杂、更长周期、跨职能的工作。Codex Agent能够处理多步骤任务，提升自动化程度。这展示了代理工具在组织内实际落地的早期案例。

OpenAI内部报告：Agent工具Codex正在加速各部门工作

X·KOLX：Greg Brockman (@gdb)原文 ↗

OpenAI官方X账号称，智能体（Agents）正在公司内部快速普及，每个部门都在使用Codex执行更复杂、更长时间且跨职能的任务。该声明引用了一篇推文，展示了内部工具如何改变工作方式。这些早期用例反映了Agent工具在能力提升和广泛可用后可能重塑工作的方向。

德国法院裁定Google为AI概览错误承担责任

官方Simon Willison’s Weblog原文 ↗

德国法院近期裁定，Google需对其AI概览中出现的错误承担法律责任。安全专家Bruce Schneier评论称，AI代理本质上是部署者的代理，法律应如此对待。若公司雇佣人类撰写摘要，公司需为内容错误负责；以AI为借口逃避责任将鼓励企业不当行为。该判决可能重塑AI部署者的责任边界，避免企业利用AI低成本且无责的优势取代人类专业岗位。

论文研究

Research

3 篇

LLM文档问答幻觉率研究：最佳模型在32K上下文仍有1.19%编造

X·KOLX：Gary Marcus (@GaryMarcus)原文 ↗

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

微软研究提出生成式因果测试，将黑盒模型转化为可验证语言假设

X·KOLX：Microsoft Research (@MSFTResearch)原文 ↗

微软研究人员提出一种名为generative causal testing的方法，将黑盒语言模型转化为清晰假设，并通过fMRI脑部扫描进行验证。实验揭示了特定脑区对语言特征（如词义、句法）的响应模式，例如左侧颞叶对语义角色的敏感度。该方法在多个基准测试中优于传统解释性技术，为理解神经语言处理提供了新途径。

在Amazon SageMaker AI上部署SeedVR2实现视频超分辨率

X·KOLX：AWS Machine Learning Blog (@Nick Biso)原文 ↗

本文演示了如何在Amazon SageMaker AI上部署SeedVR2进行视频超分辨率。介绍了解决方案架构和具体部署步骤。通过性能对比展示了SeedVR2在视频放大质量和处理效率上的提升。

技巧与观点

Tips & Takes

5 篇

使用NVIDIA Blackwell优化Amazon SageMaker AI模型训练

X·KOLX：AWS Machine Learning Blog (@Andrea Gallo)原文 ↗

本文介绍如何在Amazon SageMaker AI上利用NVIDIA Blackwell架构优化训练配置。包括根据模型大小（1B到64B参数）选择合适精度格式，调整batch size和序列长度以利用Blackwell扩展内存，以及策略性应用激活检查点。通过P6-B200实例启动分布式训练，提供一套实用的训练调优框架。

改造而非重建：Agentic Overlays用于遗留企业服务转型

X·KOLX：AWS Machine Learning Blog (@Renuka Kumar)原文 ↗

AWS博客提出Agentic Overlays方案，通过薄包装层将传统REST服务转化为支持A2A交互的智能体。该方案同时使REST API兼容Model Context Protocol (MCP)，作为工具暴露。企业无需重写业务逻辑、重复代码或运行并行基础设施。博客提供参考架构和示例代码，帮助减少基础设施中的智能体膨胀。

用Amazon Bedrock AI代理构建自助AWS健康分析Chaplin

X·KOLX：AWS Machine Learning Blog (@Aurelio DeSimone)原文 ↗

AWS发布了Chaplin开源方案，利用AI代理通过模型上下文协议（MCP）提供自助健康事件分析。Chaplin基于Amazon Bedrock，可自动聚合AWS Health事件并提供可操作建议。该方案支持自然语言查询，无需编写复杂代码即可洞察AWS资源健康状态。用户可快速部署并自定义MCP服务器来扩展分析能力。

在AWS上使用现代数据网格构建Agentic AI应用

X·KOLX：AWS Machine Learning Blog (@Venkata Sistla)原文 ↗

AWS发布了一篇博客，展示如何利用现代数据网格策略构建受治理的无服务器数据网格。该方案基于AWS无服务器架构，提供安全、可扩展的数据基础。文章详细说明了如何为生产级Agentic AI应用搭建数据网格。它涵盖了数据治理、访问控制和数据共享等关键环节。

RAG评估陷阱：单一平均分可能掩盖幻觉，试试声明级评估

X·KOLX：Milvus (@milvusio)原文 ↗

单个1-5分的RAG质量评分会隐藏严重问题：一个回答90%基于文档，但10%虚构核心参数就不可用，平均分仍显示4分。幻觉分布也不均匀，数值查找或多条件问题类型的幻觉率远高于平均，不按类型分桶就看不到偏差。优化答案相关性时，添加提示词“提供更完整背景”可能提升相关度但导致模型依赖参数知识，降低忠实度。更可靠的方法是声明级评估：将回答拆成原子事实，用NLI模型检查每个声明是否被检索内容支撑，计算接地率，并对关键参数设置硬性阻断。按问题类型分桶评分，Milvus可用标量字段直接过滤分析，不依赖额外报表管线。

今日事件

一手报道

新模型

信源