NVIDIA 发布 Nemotron 3 Ultra:550B 混合专家模型,专为长时智能体设计

NVIDIA AI Releases Nemotron 3 Ultra: An Open 550B Mixture-of-Experts Hybrid Mamba-Transformer for Long-Running Agents

精选理由

长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本,做 Agent 或 RAG 系统的团队值得直接试。

AI 摘要

NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 总参数(55B 激活)的开放混合专家模型,采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口,推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方,遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈,为 AI 代理和复杂任务自动化提供了更高效的基础模型。

AI 翻译 · 中文

NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 总参数(55B 激活)的开放混合专家模型,采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口,推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方,遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈,为 AI 代理和复杂任务自动化提供了更高效的基础模型。

marktechpostNVIDIA has released Nemotron 3 Ultra, a 550B total (55B active) open Mixture-of-Experts hybrid Mamba-Transformer for long-running agents. It pairs a 1M-token context with up to ~6x higher inference throughput than compar