07:03IT之家(博客/媒体)73°华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构,部署UCM推理记忆数据管理技术,完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下,MiniMax M2.5模型单NPU卡Token输出效率(TPS)提升58%至78%,首Token延迟(TTFT)优化26%~62%。GLM-5.1模型TPS提升56%~372%,其中128K序列下TPS提升达372%,TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache,突破高带宽内存容量限制。AI模型华为UCM昇腾A3长序列推理KV Cache推荐理由:华为和湖北移动搞了个AI推理加速实测,长序列场景下吞吐率最高翻了近4倍,GLM-5.1模型128K序列表现尤其猛。原文
13:22Z.ai (智谱国际)@Zai_org精选智谱 AI 在最新博客中分享了 GLM-5 模型大规模部署时遇到的 Scaling Pain 问题及解决方案。团队重现并修复了罕见乱码输出、重复生成和稀有字符生成等异常,追踪并消除了 KV Cache 的竞态条件,修复了 HiCache 同步问题。此外,他们引入了 LayerSplit 技术,使吞吐量提升高达 132%。这些经验教训旨在帮助社区避免类似陷阱,构建更稳健的推理基础设施。行业GLM-5Scaling Pain推理部署KV Cache性能优化推荐理由:大模型从实验到生产,Scaling Pain 是绕不过的坎。做推理部署的工程师,这篇博客里的 KV Cache 竞态和 HiCache 同步问题很可能你也会遇到,建议直接收藏。原文
02:06berryxia@berryxia83°DeepSeek 是一家中国 AI 公司,面对美国 GPU 禁运,没有堆算力,而是通过算法创新(如 KV Cache 压缩 90%、MoE 极致优化、Engram 模块)大幅降低训练和推理成本。其 V4 Pro 模型在 1M 上下文下仅需 5.48GB HBM,远低于竞品。这些技术不仅让长时序 Agent 经济可行,还盘活了中国 NAND 和 LPDDR 资源,缓解 HBM 依赖。DeepSeek 开源了整个框架,旨在打造 10 万亿美元的 AI 硬件新生态,估值目标 1 万亿美元。AI产品DeepSeekMoEKV Cache开源/仓库硬件生态推荐理由:DeepSeek 用算法创新打破了 GPU 禁运的困局,做长上下文 Agent 的开发者可以直接用 V4 Pro 体验成本暴降的效果,做硬件生态的团队值得研究其开源架构。原文