NVFP4

§ 01综述

NVIDIA 推出的 NVFP4 是一种 4 位浮点精度格式，旨在在保持模型精度的同时大幅提升推理和训练速度。近期，NVFP4 在多个场景中得到验证，并与其他技术协同发展。

NVIDIA 使用 NVFP4 精度在 Blackwell 平台上训练 Llama 3 8B 和 405B 模型，相比传统精度，速度提升 1.31 至 1.73 倍，且宣称零精度损失。这表明 NVFP4 在大型语言模型训练中具有显著效率优势（NVIDIA Blackwell 平台用 NVFP4 精度训练 Llama 3 8B/405B，速度提升 1.31-1.73 倍且零精度损失）。

同时，社区发布了基于 NVFP4 的 DeepSeek-V4 修复版，进一步展示了该格式在推理环节的应用潜力（NVIDIA 发布 DeepSeek-V4-Pro-NVFP4 修复版）。

此外，Google DeepMind 发布的 DiffusionGemma 模型虽未直接采用 NVFP4，但其并行生成 256 tokens、速度提升 4 倍的特点，与 NVFP4 追求高效推理的目标不谋而合，且该模型已获 vLLM 原生支持，暗示未来可能结合 NVFP4 进一步优化（GoogleDeepMind 发布 DiffusionGemma：26B 扩散语言模型，vLLM 原生支持、Google DeepMind 发布 DiffusionGemma，并行生成 256 tokens，速度提升 4 倍）。

当前焦点在于 NVFP4 的广泛适用性与精度损失争议。NVIDIA 声称零精度损失，但实际应用中需依赖算法（如 ScaleSearch 中的缩放因子搜索）来保障（ScaleSearch：搜索块浮点缩放因子，提升量化精度）。未来值得观察 NVFP4 能否成为低精度训练和推理的标准格式，以及它与 DiffusionGemma 等新型模型架构的兼容性。

§ 02相关报道06 条在档

§ 03邻近话题