nvfp4·general

NVFP4

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
10
§ 01综述

NVIDIA 推出的 NVFP4 是一种 4 位浮点精度格式,旨在在保持模型精度的同时大幅提升推理和训练速度。近期,NVFP4 在多个场景中得到验证,并与其他技术协同发展。

  • NVIDIA 使用 NVFP4 精度在 Blackwell 平台上训练 Llama 3 8B 和 405B 模型,相比传统精度,速度提升 1.31 至 1.73 倍,且宣称零精度损失。这表明 NVFP4 在大型语言模型训练中具有显著效率优势(NVIDIA Blackwell 平台用 NVFP4 精度训练 Llama 3 8B/405B,速度提升 1.31-1.73 倍且零精度损失)。
  • 同时,社区发布了基于 NVFP4 的 DeepSeek-V4 修复版,进一步展示了该格式在推理环节的应用潜力(NVIDIA 发布 DeepSeek-V4-Pro-NVFP4 修复版)。
  • 此外,Google DeepMind 发布的 DiffusionGemma 模型虽未直接采用 NVFP4,但其并行生成 256 tokens、速度提升 4 倍的特点,与 NVFP4 追求高效推理的目标不谋而合,且该模型已获 vLLM 原生支持,暗示未来可能结合 NVFP4 进一步优化(GoogleDeepMind 发布 DiffusionGemma:26B 扩散语言模型,vLLM 原生支持Google DeepMind 发布 DiffusionGemma,并行生成 256 tokens,速度提升 4 倍)。
  • 当前焦点在于 NVFP4 的广泛适用性与精度损失争议。NVIDIA 声称零精度损失,但实际应用中需依赖算法(如 ScaleSearch 中的缩放因子搜索)来保障(ScaleSearch:搜索块浮点缩放因子,提升量化精度)。未来值得观察 NVFP4 能否成为低精度训练和推理的标准格式,以及它与 DiffusionGemma 等新型模型架构的兼容性。

    § 02相关报道06 条在档
    1. 01
      GoogleDeepMind 发布 DiffusionGemma:26B 扩散语言模型,vLLM 原生支持
      vLLM
    2. 02
      Google DeepMind 发布 DiffusionGemma,并行生成 256 tokens,速度提升 4 倍
      NVIDIA AI
    3. 03
      NVIDIA Blackwell 平台用 NVFP4 精度训练 Llama 3 8B/405B,速度提升 1.31-1.73 倍且零精度损失
      NVIDIA AI
    4. 04
      NVIDIA 发布 DeepSeek-V4-Pro-NVFP4 修复版
      Julien Chaumond
    5. 05
      NVIDIA Research 发布 LongLive-2.0:长视频生成系统方案
      NVIDIA AI
    6. 06
      ScaleSearch:搜索块浮点缩放因子,提升量化精度
      arXiv cs.LG
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/NVFP4