全部 AI 动态 · AI 热点

6月26日

07:03

07:03IT之家（博客/媒体）

73°

华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构，部署UCM推理记忆数据管理技术，完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下，MiniMax M2.5模型单NPU卡Token输出效率（TPS）提升58%至78%，首Token延迟（TTFT）优化26%~62%。GLM-5.1模型TPS提升56%~372%，其中128K序列下TPS提升达372%，TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache，突破高带宽内存容量限制。

AI模型华为 UCM 昇腾A3 长序列推理 KV Cache

推荐理由：华为和湖北移动搞了个AI推理加速实测，长序列场景下吞吐率最高翻了近4倍，GLM-5.1模型128K序列表现尤其猛。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

00:27

00:27

rohanpaul_ai@rohanpaul_ai

精选76°

Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型（SSM）与混合专家（MoE）架构，SSM 部分专为长序列设计，使模型能够更长时间地保持推理或使用工具，而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。

AI模型 Nemotron 3 Ultra Nvidia SSM MoE 长序列推理

推荐理由：Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点，做长上下文应用或工具调用的开发者值得关注，可以直接期待其发布。