07:03IT之家(博客/媒体)73°华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构,部署UCM推理记忆数据管理技术,完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下,MiniMax M2.5模型单NPU卡Token输出效率(TPS)提升58%至78%,首Token延迟(TTFT)优化26%~62%。GLM-5.1模型TPS提升56%~372%,其中128K序列下TPS提升达372%,TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache,突破高带宽内存容量限制。AI模型华为UCM昇腾A3长序列推理KV Cache推荐理由:华为和湖北移动搞了个AI推理加速实测,长序列场景下吞吐率最高翻了近4倍,GLM-5.1模型128K序列表现尤其猛。原文
00:27rohanpaul_ai@rohanpaul_ai精选76°Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型(SSM)与混合专家(MoE)架构,SSM 部分专为长序列设计,使模型能够更长时间地保持推理或使用工具,而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。AI模型Nemotron 3 UltraNvidiaSSMMoE长序列推理9 个信源在谈推荐理由:Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点,做长上下文应用或工具调用的开发者值得关注,可以直接期待其发布。原文