NVIDIA 发布 Nemotron-Labs-Diffusion 系列扩散语言模型，并行生成多 token

精选理由

NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈，做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率，值得关注。

AI 摘要

NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型，与传统逐 token 生成不同，该模型能在单次推理中并行生成多个 token，并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力，显著提升推理速度。模型系列包含 3B 到 14B 参数规模，并提供了视觉-语言变体。目前该模型已开源可用。

AI 翻译 · 中文

NVIDIA AIMost language models only generate one token at a time. We just released Nemotron-Labs-Diffusion, a family of diffusion language models that take a different approach, generating multiple tokens in parallel within a sing…

查看原推