h100·product

H100

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
27
§ 01综述

H100 是英伟达推出的高性能 GPU,专为 AI 训练和推理设计,自发布以来一直是大型模型部署的关键硬件。近期,H100 作为基础设施支撑了多项突破性进展。Google 发布的 DiffusionGemma 模型,利用扩散方法并行生成文本,在 H100 上推理速度提升 4 倍,显著降低了延迟(原文标题)。同时,该模型为 26B MoE 架构,激活参数仅 3.8B,在 H100 上运行高效。(原文标题)此外,Cohere 推出了首个开源编程模型 North Mini Code,专为 Agent 编程设计,同样依赖 H100 进行训练和推理。(原文标题)在推理优化方面,新策略如“Move the Query, Not the Cache”尝试减少缓存开销,进一步发挥 H100 的多头潜在注意力(MLA)能力。(原文标题)当前焦点在于如何平衡 H100 的算力利用率与模型规模膨胀之间的关系。未来观察点包括:H100 在边缘端部署的可能性,以及下一代 GPU(如 B100)的竞争影响。

§ 02相关报道10 条在档
  1. 01
    Cohere 发布 North Mini Code:30B MoE 模型,3B 活跃参数专为智能体编程
    marktechpost
  2. 02
    Google 开源 DiffusionGemma:扩散架构模型,1000+ tokens/s
    小互
  3. 03
    谷歌推出 DiffusionGemma 文本扩散模型,本地推理速度提升 4 倍
    IT之家
  4. 04
    Google 发布 DiffusionGemma:通过扩散生成文本,速度提升 4 倍
    Decoder
  5. 05
    Google DeepMind 发布 DiffusionGemma,并行生成 256 tokens,速度提升 4 倍
    NVIDIA AI
  6. 06
    Google 发布 DiffusionGemma:26B MoE 开源模型,激活仅 3.8B,推理速度超快
    rohanpaul_ai
  7. 07
    Cohere 发布首个开源编程模型 North Mini Code,专为 Agent 编程设计
    shao__meng
  8. 08
    Step 3.7 Flash 部署到 Modal,配合 SGLang 提供 OpenAI 兼容接口
    阶跃星辰 Stepfun
  9. 09
    Move the Query, Not the Cache:跨实例 MLA 注意力新策略
    arXiv: DeepSeek
  10. 10
    英伟达推出 LocateAnything,高速高精度对象检测模型
    IT之家
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/H100