NVIDIA 发布 Nemotron 3 Ultra：550B 混合专家模型，专为长时智能体设计

精选理由

长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本，做 Agent 或 RAG 系统的团队值得直接试。

AI 摘要

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 总参数（55B 激活）的开放混合专家模型，采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口，推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方，遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈，为 AI 代理和复杂任务自动化提供了更高效的基础模型。

AI 翻译 · 中文

marktechpostNVIDIA has released Nemotron 3 Ultra, a 550B total (55B active) open Mixture-of-Experts hybrid Mamba-Transformer for long-running agents. It pairs a 1M-token context with up to ~6x higher inference throughput than compar…

NVIDIA AI06-04 13:06原文
elvis06-04 14:14原文
lmarena.ai06-04 23:30原文
Paul Couvert06-04 15:35原文
ollama06-04 17:44原文
rohanpaul_ai06-05 01:02原文
Aravind Srinivas06-05 19:51原文
Geek06-04 16:12原文
Fireworks AI06-04 16:14原文
Perplexity06-05 19:14原文

阅读原文