H100 是英伟达推出的高性能 GPU,专为 AI 训练和推理设计,自发布以来一直是大型模型部署的关键硬件。近期,H100 作为基础设施支撑了多项突破性进展。Google 发布的 DiffusionGemma 模型,利用扩散方法并行生成文本,在 H100 上推理速度提升 4 倍,显著降低了延迟(原文标题)。同时,该模型为 26B MoE 架构,激活参数仅 3.8B,在 H100 上运行高效。(原文标题)此外,Cohere 推出了首个开源编程模型 North Mini Code,专为 Agent 编程设计,同样依赖 H100 进行训练和推理。(原文标题)在推理优化方面,新策略如“Move the Query, Not the Cache”尝试减少缓存开销,进一步发挥 H100 的多头潜在注意力(MLA)能力。(原文标题)当前焦点在于如何平衡 H100 的算力利用率与模型规模膨胀之间的关系。未来观察点包括:H100 在边缘端部署的可能性,以及下一代 GPU(如 B100)的竞争影响。
№h100·product
H100
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 27
§ 01综述
§ 02相关报道10 条在档
- 01Cohere 发布 North Mini Code:30B MoE 模型,3B 活跃参数专为智能体编程
- 02Google 开源 DiffusionGemma:扩散架构模型,1000+ tokens/s
- 03谷歌推出 DiffusionGemma 文本扩散模型,本地推理速度提升 4 倍
- 04Google 发布 DiffusionGemma:通过扩散生成文本,速度提升 4 倍
- 05Google DeepMind 发布 DiffusionGemma,并行生成 256 tokens,速度提升 4 倍
- 06Google 发布 DiffusionGemma:26B MoE 开源模型,激活仅 3.8B,推理速度超快
- 07Cohere 发布首个开源编程模型 North Mini Code,专为 Agent 编程设计
- 08Step 3.7 Flash 部署到 Modal,配合 SGLang 提供 OpenAI 兼容接口
- 09Move the Query, Not the Cache:跨实例 MLA 注意力新策略
- 10英伟达推出 LocateAnything,高速高精度对象检测模型
§ 03邻近话题