Nemotron 3 Ultra 开源：Mamba-2 混合架构，效率惊人

精选理由

NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强，追求高性价比模型的团队可以直接拿来用，省去从头训练的昂贵成本。

AI 摘要

Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型，延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计，但规模更大。该模型在能力与效率之间取得了极佳平衡，性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署，适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态，为研究者和工程师提供了新的选择。

AI 翻译 · 中文

Sebastian RaschkaAnd another open-weight release. Nemotron 3 Ultra has an ultra impressive capability:efficiency ratio! Design-wise, it carries forward the Mamba-2-attention hybrid stack and LatentMoE introduced in the previous Super va…

lmarena.ai06-12 20:28原文
NVIDIA AI06-11 20:22原文
Simon Willison’s Weblog06-10 20:00原文
Richard Socher06-11 15:30原文
vLLM06-12 04:08原文
Decoder06-10 19:20原文
Together AI06-11 20:04原文
Tri Dao (FlashAttention)06-12 04:20原文
karminski-牙医 (AI工具)06-12 04:31原文
LMSYS Org (SGLang)06-12 14:18原文

查看原推