全部 AI 动态 · AI 热点

6月26日

07:03

07:03IT之家（博客/媒体）

73°

华为与湖北移动基于OceanStor A800存储和昇腾A3超节点架构，部署UCM推理记忆数据管理技术，完成全国运营商首个AI推理加速方案现网测试。在8K至190K长序列输入场景下，MiniMax M2.5模型单NPU卡Token输出效率（TPS）提升58%至78%，首Token延迟（TTFT）优化26%~62%。GLM-5.1模型TPS提升56%~372%，其中128K序列下TPS提升达372%，TTFT优化51%~93%。该方案通过外置存储提供PB级KV Cache，突破高带宽内存容量限制。

AI模型华为 UCM 昇腾A3 长序列推理 KV Cache

推荐理由：华为和湖北移动搞了个AI推理加速实测，长序列场景下吞吐率最高翻了近4倍，GLM-5.1模型128K序列表现尤其猛。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:22

13:22

Z.ai (智谱国际)@Zai_org

精选

智谱 AI 在最新博客中分享了 GLM-5 模型大规模部署时遇到的 Scaling Pain 问题及解决方案。团队重现并修复了罕见乱码输出、重复生成和稀有字符生成等异常，追踪并消除了 KV Cache 的竞态条件，修复了 HiCache 同步问题。此外，他们引入了 LayerSplit 技术，使吞吐量提升高达 132%。这些经验教训旨在帮助社区避免类似陷阱，构建更稳健的推理基础设施。

行业 GLM-5 Scaling Pain 推理部署 KV Cache 性能优化

推荐理由：大模型从实验到生产，Scaling Pain 是绕不过的坎。做推理部署的工程师，这篇博客里的 KV Cache 竞态和 HiCache 同步问题很可能你也会遇到，建议直接收藏。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

02:06

02:06

berryxia@berryxia

83°

DeepSeek 是一家中国 AI 公司，面对美国 GPU 禁运，没有堆算力，而是通过算法创新（如 KV Cache 压缩 90%、MoE 极致优化、Engram 模块）大幅降低训练和推理成本。其 V4 Pro 模型在 1M 上下文下仅需 5.48GB HBM，远低于竞品。这些技术不仅让长时序 Agent 经济可行，还盘活了中国 NAND 和 LPDDR 资源，缓解 HBM 依赖。DeepSeek 开源了整个框架，旨在打造 10 万亿美元的 AI 硬件新生态，估值目标 1 万亿美元。

AI产品 DeepSeek MoE KV Cache 开源/仓库硬件生态

推荐理由：DeepSeek 用算法创新打破了 GPU 禁运的困局，做长上下文 Agent 的开发者可以直接用 V4 Pro 体验成本暴降的效果，做硬件生态的团队值得研究其开源架构。