华为与湖北移动完成AI推理加速方案现网测试，长序列吞吐率提升372%

精选理由

华为和湖北移动搞了个AI推理加速实测，长序列场景下吞吐率最高翻了近4倍，GLM-5.1模型128K序列表现尤其猛。

AI 摘要

华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构，部署UCM推理记忆数据管理技术，完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下，MiniMax M2.5模型单NPU卡Token输出效率（TPS）提升58%至78%，首Token延迟（TTFT）优化26%~62%。GLM-5.1模型TPS提升56%~372%，其中128K序列下TPS提升达372%，TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache，突破高带宽内存容量限制。

AI 翻译 · 中文

IT之家IT之家 6 月 26 日消息，6 月 24 日，在 2026 MWC 上海展期间，华为与中国移动通信集团湖北有限公司（IT之家注：以下简称“湖北移动”）联合宣布，双方已成功完成全国运营商首个 AI 推理加速解决方案现网测试。据介绍，该测试基于华为 OceanStor A800 存储与昇腾 A3 超节点架构，搭载 UCM (Unified Cache Manager，推理记忆数据管理)，在长序列 AI 推理场景下，实现了 Token …

阅读原文