13:00量子位@鱼羊英伟达开源了一款新的MoE加速库,只需一行import即可集成到Transformers v5中。微调速度提升3.7倍。该库支持专家并行技术,并整合了DeepEP和TransformerEngine组件。用户无需修改现有代码即可获取显著性能提升。AI模型英伟达MoETransformers v5DeepEP开源模型推荐理由:想让你HuggingFace上的MoE模型微调更快?英伟达这个新库一行代码就能加速3.7倍,直接用。原文
10:31arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。论文MD DecouplingAdamMuonMoE优化器推荐理由:这篇论文提出了一种简单通用的优化器改进方案,能解耦权重幅度和方向,消除权重衰减和warmup,在Adam和Muon上都有效,值得关注。原文
09:37arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong稀疏MoE(Mixture-of-Experts)模型在多语言场景下,低资源语言因数据稀缺导致路由与高资源语言不一致,限制跨语言知识共享。为此提出SARA(Semantically Anchored Routing Alignment)框架,利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上,针对5种低资源语言和3个基准测试,SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏,直接对齐内部路由机制,有效缓解低资源语言瓶颈。论文SARAMoEQwen3多语言模型开源模型推荐理由:论文提出SARA方法,用语义锚对齐MoE路由,让低资源语言也能用好专家能力,Global-MMLU提升0.8%-1.2%。原文
01:12NVIDIA AI@NVIDIAAI76°NVIDIA 发布了 NeMo AutoModel,基于 Hugging Face Transformers v5 为混合专家 (MoE) 模型提供原生支持。通过 Expert Parallelism、DeepEP 和 TransformerEngine 内核,仅需几行代码即可应用优化。实测显示 NeMo AutoModel 将主流 MoE 模型训练吞吐量提升 3.4 到 3.7 倍。该工具是 NeMo 框架的一部分,专为大规模模型构建设计。AI产品NeMo AutoModelMoEHugging Face Transformers v5训练加速NVIDIA7 个信源在谈推荐理由:NVIDIA 出了个 NeMo AutoModel,基于 Hugging Face Transformers v5,几行代码就能给 MoE 模型训练加速 3 倍以上,搞大模型训练的值得看看。原文
22:39阿里通义 Qwen@Alibaba_Qwen精选73°阿里Qwen团队开源了Qwen-AgentWorld-35B-A3B模型,采用MoE架构,总参数量35B,每次推理激活3B参数,支持256K上下文长度。同时发布了AgentWorldBench基准,用于评估智能体的世界建模能力。该模型在多个现实环境模拟任务上表现优于同等规模模型。相关论文已发布于arXiv,代码和模型权重在GitHub和Hugging Face上开放。AI模型QwenAgentWorldMoE智能体世界建模推荐理由:阿里新开源了35B参数的MoE模型,只激活3B,256K超长上下文,配合AgentWorldBench,研究智能体世界建模的赶紧试试。原文
11:41arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu YangCrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎,它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重,KV-cache 池动态服务活跃请求,使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核,减少了 CPU-GPU 控制开销。在突发长上下文请求下,CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统,将 P99 TBT 降低了最多 10.4 倍。论文CrossPoolMoEKV-cache推理模型模型服务推荐理由:这篇论文提出了 CrossPool,通过分离权重和 KV-cache 池,能大幅降低冷 MoE 模型的推理延迟,比现有系统快 10 倍以上。原文
15:27marktechpost@Asif Razzaq精选Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。AI产品prime-rlGLM-5Prime Intellect强化学习MoE8 个信源在谈推荐理由:Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。原文
12:57歸藏(guizang.ai)@op7418精选71°Noam Shazeer(Transformer论文作者之一、MoE架构提出者)加入OpenAI,负责模型架构研究。谷歌此前以27亿美元收购Character.AI换取他加入谷歌。但Shazeer在谷歌停留短暂后即转投OpenAI。行业Noam ShazeerTransformerMoEOpenAICharacter.AI模型架构10 个信源在谈推荐理由:Transformer论文作者Noam Shazeer,MoE提出者,跑到OpenAI研究模型架构了,谷歌27亿美元白花了?原文
11:40arXiv cs.AI@Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu该论文研究混合专家模型在分布偏移下的校准问题。先前工作表明专家级校准可提升MoE模型的准确率和校准度。本文发现硬路由模型中专家校准足以保证整体校准,但软路由模型则不足。对此提出对抗性重新加权方法,惩罚分布偏移下路由聚合的校准误差。实验证明该方法能改善平均及困难子集上的准确率-校准权衡。论文MoE分布偏移校准对抗性重加权推荐理由:这篇论文把MoE的校准问题研究透了,告诉你硬路由和软路由有什么区别,还给了一个对抗性重加权的解法。原文
12:59@atomic_chat_hq@atomic_chat_hq精选Liquid 的 LFM2.5-8B-A1B(8B总参、1B激活)在 MacBook Pro M5 Max 上本地运行,与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务,LFM2.5-8B-A1B 全部成功,而 gpt-oss-20b 仅完成 3 个。内存方面,LFM2.5-8B-A1B 仅用 4.8 GB,远低于对手的 11 GB。速度上,LFM2.5-8B-A1B 达到 266 tok/s,总耗时 6.9 s,而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构,实现了小参数下的高效工具调用。AI模型LiquidLFM2.5-8B-A1Bgpt-oss-20b工具调用MoE10 个信源在谈推荐理由:Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具,速度还快两倍,本地跑 agent 任务很实用。原文
11:12歸藏(guizang.ai)@op7418精选81°Noam Shazeer,Character AI前CEO、Transformer论文作者之一及混合专家模型(MoE)架构提出者,宣布加入OpenAI。谷歌曾以27亿美元收购Character AI,旨在换取Shazeer加入,但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位,称期待与OpenAI团队合作。行业Noam ShazeerOpenAITransformerMoE行业动态10 个信源在谈推荐理由:Transformer和MoE的发明者从谷歌跳到OpenAI了,看看他能为GPT-5带来什么新架构。原文
09:53arXiv cs.LG@Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen稀疏混合专家(SMoE)架构通过Top-k专家选择实现条件路由,但这会导致映射不连续。论文将不连续性按阶数分类(由切换事件中并列专家数决定),并建立渐近体积估计:低阶不连续性占据主导,高阶体积趋于零。通过扩散过程建模输入随机扰动,证明路径几乎必然在有限时间内首次击中一阶不连续性。实验结果在语言和视觉任务上表明,提出的平滑机制不仅恢复连续性,还提升了经验性能。论文Sparse Mixture-of-ExpertsSMoEMoE稀疏专家模型不连续性分析推荐理由:这篇论文把SMoE的不连续性分析得清清楚楚,还附带了一个计算量很小的平滑方法,实验证明又能提高效果,值得一看。原文
09:44arXiv cs.AI@Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane传统分布式大模型训练需要每个数据中心持有完整模型副本,导致巨大内存和通信开销。FoMoE通过将专家层分散到不同节点,将通信开销降低至传统方法的1.42倍,相比DDP下降45.44倍。其跳词机制在实际训练中实现了1.4倍的吞吐量提升。系统建模显示,FoMoE在100B参数规模下仍能保持通信和内存优势。论文FoMoEMoE分布式训练通信优化弱连接数据中心推荐理由:FoMoE把MoE的专家拆开放不同数据中心,省通信还提速,适合多数据中心联合训练大模型。原文
09:21arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao精选该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题,提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题,通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验,结合4-bit量化后,50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上,内存占用减少5.27倍,优于现有基线。论文MoE结构剪枝量化DeepSeekQwen推荐理由:想省显存又怕掉精度?这篇论文用通道级剪枝加4-bit量化,把MoE模型体积砍到1/5还能保住性能,DeepSeek和Qwen都能用。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
09:41arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin KurdzielSoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由,实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算,使容量分配可学习。在语言建模和下游任务上,SoftMoE性能与稀疏MoE相当或更优,但激活专家数量更少。实验显示分配呈高度非均匀性,后层激活更多专家。AI模型SoftMoEMoELLM专家混合可微路由推荐理由:稀疏MoE的top-k路由不灵活还浪费算力,SoftMoE用可微路由让模型自己学会少用专家,性能却不输,代码开源了。原文
11:56arXiv: DeepSeek@Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang针对MoE模型(如Qwen、DeepSeek)推理中专家加载延迟高的问题,研究者分析了专家选择行为,发现相邻MoE层和连续解码token间专家请求存在强相关性。基于此提出ST-MoE,一个结合轻量级运行时预测机制与可重构硬件设计的专家预取框架。ST-MoE通过预取专家与计算重叠,显著提升推理性能并降低能耗,同时保持模型精度。实验在多种MoE模型和应用(语言理解、代码生成)上验证了有效性。论文MoEQwenDeepSeekST-MoE推理加速推荐理由:这篇论文分析了Qwen、DeepSeek等MoE模型的专家加载瓶颈,用ST-MoE框架通过预取专家来加速推理,兼顾效率和精度,适合关注大模型推理优化的读者。原文
10:54arXiv cs.LG@Martin Jaggi混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。论文Expert TyingMoEOLMoEQwen3模型压缩推荐理由:这个工作很实在:跨层共享专家参数让MoE模型内存减半,性能不掉,适合做模型压缩和高效训练的朋友看看。原文
09:50arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan该研究提出MoE专家一次性剪枝的统一公式,将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则:任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。论文MoE专家剪枝语言模型基准测试模型压缩推荐理由:这篇论文把MoE剪枝的各种评分方法统一了,还提出MAN和MSAN两个新标准,在多个模型和基准上表现更稳定,适合做模型压缩的人参考。原文
23:52Julien Chaumond@julien_c83°Mistral AI 正式确认即将发布 Le Chaton Fat,这是一个拥有 30 万亿参数(30T)的混合专家(MoE)模型,配备 256 个专家。该模型支持 1M 上下文窗口,具备多模态和多语言能力,并在所有基准测试上超越 Fable 5。具体发布日期尚未公布。AI模型MistralAILe Chaton FatMoE多模态1M上下文推荐理由:Mistral 要发一个 30T 参数、256 专家的超大 MoE 模型,还带 1M 上下文和多模态,性能吊打 Fable 5,开源有望了。原文
11:12arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。论文DiffusionGemmaGemma 4掩码扩散模型解码顺序MoE5 个信源在谈推荐理由:解析扩散模型真实解码行为原文
22:18LMSYS Org (SGLang)@lmsysorg73°SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。AI模型SGLangMiniMax-M3多模态MoE推理模型10 个信源在谈推荐理由:SGLang 第一时间支持 MiniMax-M3,做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速,编码和智能体任务表现值得一试。原文
12:20Tri Dao (FlashAttention)@tri_dao精选WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。AI模型MoE反向传播内存优化Blackwell加速10 个信源在谈推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
11:27arXiv cs.AI@Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin精选Mixture-of-Experts (MoE) 模型中的路由器负责决定激活哪些专家,但其设计缺乏理论指导。本文提出将每个路由器行与对应专家的主奇异方向对齐,因为该方向能最有效地描述矩阵。基于此,作者设计了 Manifold Power Iteration (MPI) 方法,采用“先幂迭代再收缩”的范式,使路由器行收敛到专家的主奇异方向。实验在 1B 到 11B 参数的 MoE 模型上验证,该方法显著提升了模型效果。论文MoE路由器设计主奇异方向Manifold Power Iteration模型优化推荐理由:MoE 模型的路由器设计长期缺乏理论依据,MPI 给出了可解释的优化方向,做大规模 MoE 训练的团队值得关注,能直接提升模型效率。原文
02:54marktechpost@Asif Razzaq76°Google DeepMind 推出 DiffusionGemma,一款 26B 参数的混合专家(MoE)开源模型,采用文本扩散技术,在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时,显著降低了推理延迟,适合对实时性要求高的场景。DiffusionGemma 已开源,开发者可直接下载使用。AI模型DiffusionGemmaGoogle DeepMindMoE文本扩散开源模型推荐理由:做文本生成或实时 AI 应用的开发者,这个模型用扩散方法把生成速度翻了 4 倍,值得下载实测。原文
02:00rohanpaul_ai@rohanpaul_ai83°Google 发布了 DiffusionGemma,一个基于扩散模型的 26B 参数 MoE 开源语言模型,激活参数仅 3.8B。该模型采用 Apache 2.0 许可证,量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token,推理速度比传统自回归模型快 4 倍,在 H100 上可达 1000+ tokens/s,在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点,尤其适合单用户场景。AI模型开源/仓库推理模型MoE扩散模型本地部署6 个信源在谈推荐理由:本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍,做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验,值得一试。原文
01:49Philipp Schmid@_philschmid78°DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。AI模型扩散模型Gemma 4MoE高效推理开源/仓库7 个信源在谈推荐理由:每秒 1000+ tokens 的生成速度让推理成本大幅降低,做大规模文本生成或实时应用的开发者值得关注,量化后 18GB VRAM 就能跑,门槛很低。原文
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang精选76°快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。AI模型开源/仓库MoE长视频理解智能体多模态推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。原文
08:25AI Will@FinanceYF588°NVIDIA 近日发布 Nemotron 3 Ultra,这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构,激活参数仅 55B,推理速度比同级开源模型快 5 倍,Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题,为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。AI模型NVIDIANemotron 3 Ultra开源模型AgentMoE10 个信源在谈推荐理由:做 Agent 开发的团队终于有了一个高性能且成本可控的开源选择——Nemotron 3 Ultra 推理快 5 倍、成本降 30%,值得直接上手试试。原文
08:12lmarena.ai@lmarena_ai精选83°NVIDIA 今日正式发布 Nemotron 3 Ultra,这是一款 550B 参数的混合专家(MoE)开源模型,定位为前沿智能(frontier-intelligence)模型,专为长时间运行的智能体任务打造。相比其他开源前沿模型,Nemotron 3 Ultra 推理速度提升 5 倍,复杂智能体任务成本降低高达 30%。该模型旨在解决当前开源模型在长周期、高复杂度任务中推理慢、成本高的问题,为开发者提供更高效的智能体基础设施。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体开发和部署的团队终于有了一个开源的高效选择——Nemotron 3 Ultra 直接降低长任务推理成本 30%,建议关注并测试其在实际 agent 场景中的表现。原文
03:03ollama@ollama76°NVIDIA 的 Nemotron 3 Ultra 模型现已可通过 Ollama 云端直接使用。该模型为 550B MoE 架构的开放前沿模型,专为长时间运行的智能体任务设计。相比其他开放前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低最多 30%。用户可通过 Claude Code、Hermes Agent 等工具直接调用,也可用于通用聊天。AI模型NVIDIANemotron 3 UltraOllamaMoE智能体10 个信源在谈推荐理由:做智能体开发的团队终于有了一个低成本、高推理速度的开放模型选择,可以直接在 Ollama 上跑,建议试试看。原文
00:03LangChain@LangChainAI76°LangChain 宣布原生支持 NVIDIA 最新发布的 Nemotron 3 Ultra 模型,并在发布当天即提供对 Deep Agents 的支持。Nemotron 3 Ultra 是一个 550B 参数的 MoE 架构开放模型,专为长时间运行的智能体任务设计,推理速度提升 5 倍,复杂智能体任务成本降低 30%。作为 Nemotron Coalition 成员,LangChain 将与 NVIDIA 合作,推动开放模型的共享与构建。这一集成让开发者能立即在 LangChain 生态中使用该模型构建高性能智能体应用。AI产品LangChainNVIDIA Nemotron 3 Ultra智能体MoE开放模型10 个信源在谈推荐理由:做智能体应用的开发者可以立即在 LangChain 中调用 Nemotron 3 Ultra,推理快 5 倍、成本降 30%,值得直接上手试。原文
23:26SiliconFlowAI@siliconflowaiNex 团队推出 Nex-N2-Pro 模型,基于 Qwen3.5-397B-A17B,在多项基准测试中达到 GPT-5.5 和 Claude Opus 4.7 级别性能。该模型为 397B MoE 推理模型,支持 262K 上下文和视觉语言任务,能自动调整推理深度,减少 30-50% 的思考 token 而不牺牲性能。在 Terminal Bench 2.1、GDPVal 和 SWE-Verified 上取得 SOTA 成绩,擅长智能体编程、深度搜索和工具使用。SiliconFlow 已提供 T+0 支持,前两周免费使用。AI模型推理模型MoE开源/仓库智能体编程Qwen推荐理由:做智能体编程或深度搜索的团队,现在就能免费试用一个对标顶级闭源模型的开源 MoE 模型,且能直接接入 Claude Code、Cursor 等工具,值得立即体验。原文
22:39elvis@omarsar083°NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 参数的混合专家(MoE)开源模型,专为长时间运行的智能体任务优化。该模型在推理速度上比同类开源前沿模型快 5 倍,同时将复杂智能体任务的成本降低高达 30%。这标志着开源模型在支持本地长时间运行编程智能体方面迈出了重要一步,为开发者提供了更高效、更经济的替代方案。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体或编程助手的开发者终于有了一个开源的高效选择——Nemotron 3 Ultra 在速度和成本上显著优于同类模型,值得立即关注和测试。原文
21:27NVIDIA AI@NVIDIAAI93°NVIDIA 今日正式推出 Nemotron 3 Ultra,一款 550B 参数的 MoE(混合专家)开源模型,专为长时间运行的智能体任务设计。相比其他开源前沿模型,该模型推理速度提升 5 倍,复杂智能体任务成本降低高达 30%。Nemotron 3 Ultra 旨在解决长周期 AI 任务中的效率与成本瓶颈,为开发者提供更经济、更快速的智能体部署方案。NVIDIA 强调其“前沿智能”级别性能,并保持开源,进一步推动 AI 生态发展。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体开发和部署的团队终于有了一个兼顾性能与成本的开源选择——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低值得直接上手测试。原文
16:05marktechpost@Asif Razzaq精选JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,基于 Apache 2.0 开源协议。该模型在 10.6 万亿 token 上训练,专为多模型 AI 流水线中的快速专用任务优化,如代码补全、重构建议等。Mellum2 旨在平衡性能与效率,适合集成到开发工具中,提升开发者体验。其 MoE 架构使其在保持较小激活参数的同时,实现高精度输出。AI模型JetBrainsMellum2MoE代码补全开源/仓库推荐理由:JetBrains 把 MoE 模型塞进开发者工具链,做 IDE 插件或代码分析工具的团队可以直接用 Mellum2 替换通用模型,提升响应速度且不牺牲质量。原文
07:56Fireworks AI@FireworksAI_HQ精选76°StepFun 发布 Step 3.7 Flash,一个 196B 参数的 MoE 模型,从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力(MFA)技术,KV-cache 仅为 DeepSeek 的约 22%,并通过注意力-FFN 解耦(AFD)实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一,支持 400 TPS 的推理速度,256K 上下文窗口,并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计,支持本地运行(如 Mac Studio M4 Max),并采用 Apache 2.0 许可证开放权重。AI模型Step 3.7 FlashMoE推理效率MFAApache 2.0推荐理由:Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去,做智能体或搜索应用的团队可以直接在 Fireworks 上试用,成本可能比 DeepSeek 低很多。原文
00:33Hugging Face: Blog(博客/媒体)精选72°JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。AI模型JetBrainsMellum2MoE代码生成开源/仓库推荐理由:JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案,用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验,看看它能否提升你的编码效率。原文
00:27rohanpaul_ai@rohanpaul_ai精选76°Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型(SSM)与混合专家(MoE)架构,SSM 部分专为长序列设计,使模型能够更长时间地保持推理或使用工具,而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。AI模型Nemotron 3 UltraNvidiaSSMMoE长序列推理9 个信源在谈推荐理由:Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点,做长上下文应用或工具调用的开发者值得关注,可以直接期待其发布。原文