全部 AI 动态 · AI 热点

6月25日

01:12

NVIDIA AI@NVIDIAAI

76°

NVIDIA 发布了 NeMo AutoModel，基于 Hugging Face Transformers v5 为混合专家 (MoE) 模型提供原生支持。通过 Expert Parallelism、DeepEP 和 TransformerEngine 内核，仅需几行代码即可应用优化。实测显示 NeMo AutoModel 将主流 MoE 模型训练吞吐量提升 3.4 到 3.7 倍。该工具是 NeMo 框架的一部分，专为大规模模型构建设计。

AI产品 NeMo AutoModel MoE Hugging Face Transformers v5 训练加速 NVIDIA

推荐理由：NVIDIA 出了个 NeMo AutoModel，基于 Hugging Face Transformers v5，几行代码就能给 MoE 模型训练加速 3 倍以上，搞大模型训练的值得看看。

原文

6月24日

22:39

阿里通义 Qwen@Alibaba_Qwen

精选73°

阿里Qwen团队开源了Qwen-AgentWorld-35B-A3B模型，采用MoE架构，总参数量35B，每次推理激活3B参数，支持256K上下文长度。同时发布了AgentWorldBench基准，用于评估智能体的世界建模能力。该模型在多个现实环境模拟任务上表现优于同等规模模型。相关论文已发布于arXiv，代码和模型权重在GitHub和Hugging Face上开放。

AI模型 Qwen AgentWorld MoE 智能体世界建模

推荐理由：阿里新开源了35B参数的MoE模型，只激活3B，256K超长上下文，配合AgentWorldBench，研究智能体世界建模的赶紧试试。

原文

6月20日

12:57

歸藏(guizang.ai)@op7418

精选71°

Noam Shazeer（Transformer论文作者之一、MoE架构提出者）加入OpenAI，负责模型架构研究。谷歌此前以27亿美元收购Character.AI换取他加入谷歌。但Shazeer在谷歌停留短暂后即转投OpenAI。

行业 Noam Shazeer Transformer MoE OpenAI Character.AI 模型架构

推荐理由：Transformer论文作者Noam Shazeer，MoE提出者，跑到OpenAI研究模型架构了，谷歌27亿美元白花了？

原文

6月18日

12:59

@atomic_chat_hq@atomic_chat_hq

精选

Liquid 的 LFM2.5-8B-A1B（8B总参、1B激活）在 MacBook Pro M5 Max 上本地运行，与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务，LFM2.5-8B-A1B 全部成功，而 gpt-oss-20b 仅完成 3 个。内存方面，LFM2.5-8B-A1B 仅用 4.8 GB，远低于对手的 11 GB。速度上，LFM2.5-8B-A1B 达到 266 tok/s，总耗时 6.9 s，而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构，实现了小参数下的高效工具调用。

AI模型 Liquid LFM2.5-8B-A1B gpt-oss-20b 工具调用 MoE

推荐理由：Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具，速度还快两倍，本地跑 agent 任务很实用。

原文

11:12

歸藏(guizang.ai)@op7418

精选81°

Noam Shazeer，Character AI前CEO、Transformer论文作者之一及混合专家模型（MoE）架构提出者，宣布加入OpenAI。谷歌曾以27亿美元收购Character AI，旨在换取Shazeer加入，但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位，称期待与OpenAI团队合作。

行业 Noam Shazeer OpenAI Transformer MoE 行业动态

推荐理由：Transformer和MoE的发明者从谷歌跳到OpenAI了，看看他能为GPT-5带来什么新架构。

原文

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

23:52

Julien Chaumond@julien_c

83°

Mistral AI 正式确认即将发布 Le Chaton Fat，这是一个拥有 30 万亿参数（30T）的混合专家（MoE）模型，配备 256 个专家。该模型支持 1M 上下文窗口，具备多模态和多语言能力，并在所有基准测试上超越 Fable 5。具体发布日期尚未公布。

AI模型 MistralAI Le Chaton Fat MoE 多模态 1M上下文

推荐理由：Mistral 要发一个 30T 参数、256 专家的超大 MoE 模型，还带 1M 上下文和多模态，性能吊打 Fable 5，开源有望了。

原文

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:20

Tri Dao (FlashAttention)@tri_dao

精选

WentaoGuo7 提出了一种对混合专家模型（MoE）反向传播的数学重写方法，显著降低了激活内存占用，并大幅提升了训练速度，尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性（如2CTA MMA和CLC）来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义，能有效缓解内存瓶颈并加速迭代。

AI模型 MoE 反向传播内存优化 Blackwell 加速

推荐理由：做MoE模型训练和推理的开发者，这个数学重写能直接降低你的显存压力并加速训练，尤其适合细粒度MoE场景，建议试试Blackwell新特性带来的性能提升。

原文

12:04

LMSYS Org (SGLang)@lmsysorg

精选

SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型，这是 Gemma 4 的文本扩散变体（26B A4B MoE）。与传统逐 token 解码不同，DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入（文本、图像、视频）输出文本、稀疏 MoE 架构（8/128 专家）以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。

AI模型 SGLang DiffusionGemma Gemma 4 文本扩散 MoE

推荐理由：文本扩散模型大幅提升生成效率，适合需要低延迟批量推理的 AI 应用开发者，建议立即在 SGLang 中体验。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

02:00

rohanpaul_ai@rohanpaul_ai

83°

Google 发布了 DiffusionGemma，一个基于扩散模型的 26B 参数 MoE 开源语言模型，激活参数仅 3.8B。该模型采用 Apache 2.0 许可证，量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token，推理速度比传统自回归模型快 4 倍，在 H100 上可达 1000+ tokens/s，在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点，尤其适合单用户场景。

AI模型开源/仓库推理模型 MoE 扩散模型本地部署

推荐理由：本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍，做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验，值得一试。

原文

01:49

Philipp Schmid@_philschmid

78°

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型，推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式，实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM，且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈，为高效文本生成提供了新思路。

AI模型扩散模型 Gemma 4 MoE 高效推理开源/仓库

推荐理由：每秒 1000+ tokens 的生成速度让推理成本大幅降低，做大规模文本生成或实时应用的开发者值得关注，量化后 18GB VRAM 就能跑，门槛很低。

原文

6月7日

08:25

AI Will@FinanceYF5

88°

NVIDIA 近日发布 Nemotron 3 Ultra，这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构，激活参数仅 55B，推理速度比同级开源模型快 5 倍，Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题，为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。

AI模型 NVIDIA Nemotron 3 Ultra 开源模型 Agent MoE

推荐理由：做 Agent 开发的团队终于有了一个高性能且成本可控的开源选择——Nemotron 3 Ultra 推理快 5 倍、成本降 30%，值得直接上手试试。

原文

6月5日

08:12

lmarena.ai@lmarena_ai

精选83°

NVIDIA 今日正式发布 Nemotron 3 Ultra，这是一款 550B 参数的混合专家（MoE）开源模型，定位为前沿智能（frontier-intelligence）模型，专为长时间运行的智能体任务打造。相比其他开源前沿模型，Nemotron 3 Ultra 推理速度提升 5 倍，复杂智能体任务成本降低高达 30%。该模型旨在解决当前开源模型在长周期、高复杂度任务中推理慢、成本高的问题，为开发者提供更高效的智能体基础设施。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体开发和部署的团队终于有了一个开源的高效选择——Nemotron 3 Ultra 直接降低长任务推理成本 30%，建议关注并测试其在实际 agent 场景中的表现。

原文

03:03

ollama@ollama

76°

NVIDIA 的 Nemotron 3 Ultra 模型现已可通过 Ollama 云端直接使用。该模型为 550B MoE 架构的开放前沿模型，专为长时间运行的智能体任务设计。相比其他开放前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低最多 30%。用户可通过 Claude Code、Hermes Agent 等工具直接调用，也可用于通用聊天。

AI模型 NVIDIA Nemotron 3 Ultra Ollama MoE 智能体

推荐理由：做智能体开发的团队终于有了一个低成本、高推理速度的开放模型选择，可以直接在 Ollama 上跑，建议试试看。

原文

00:03

LangChain@LangChainAI

76°

LangChain 宣布原生支持 NVIDIA 最新发布的 Nemotron 3 Ultra 模型，并在发布当天即提供对 Deep Agents 的支持。Nemotron 3 Ultra 是一个 550B 参数的 MoE 架构开放模型，专为长时间运行的智能体任务设计，推理速度提升 5 倍，复杂智能体任务成本降低 30%。作为 Nemotron Coalition 成员，LangChain 将与 NVIDIA 合作，推动开放模型的共享与构建。这一集成让开发者能立即在 LangChain 生态中使用该模型构建高性能智能体应用。

AI产品 LangChain NVIDIA Nemotron 3 Ultra 智能体 MoE 开放模型

推荐理由：做智能体应用的开发者可以立即在 LangChain 中调用 Nemotron 3 Ultra，推理快 5 倍、成本降 30%，值得直接上手试。

原文

6月4日

23:26

SiliconFlowAI@siliconflowai

Nex 团队推出 Nex-N2-Pro 模型，基于 Qwen3.5-397B-A17B，在多项基准测试中达到 GPT-5.5 和 Claude Opus 4.7 级别性能。该模型为 397B MoE 推理模型，支持 262K 上下文和视觉语言任务，能自动调整推理深度，减少 30-50% 的思考 token 而不牺牲性能。在 Terminal Bench 2.1、GDPVal 和 SWE-Verified 上取得 SOTA 成绩，擅长智能体编程、深度搜索和工具使用。SiliconFlow 已提供 T+0 支持，前两周免费使用。

AI模型推理模型 MoE 开源/仓库智能体编程 Qwen

推荐理由：做智能体编程或深度搜索的团队，现在就能免费试用一个对标顶级闭源模型的开源 MoE 模型，且能直接接入 Claude Code、Cursor 等工具，值得立即体验。

原文

22:39

elvis@omarsar0

83°

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 参数的混合专家（MoE）开源模型，专为长时间运行的智能体任务优化。该模型在推理速度上比同类开源前沿模型快 5 倍，同时将复杂智能体任务的成本降低高达 30%。这标志着开源模型在支持本地长时间运行编程智能体方面迈出了重要一步，为开发者提供了更高效、更经济的替代方案。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体或编程助手的开发者终于有了一个开源的高效选择——Nemotron 3 Ultra 在速度和成本上显著优于同类模型，值得立即关注和测试。

原文

21:27

NVIDIA AI@NVIDIAAI

93°

NVIDIA 今日正式推出 Nemotron 3 Ultra，一款 550B 参数的 MoE（混合专家）开源模型，专为长时间运行的智能体任务设计。相比其他开源前沿模型，该模型推理速度提升 5 倍，复杂智能体任务成本降低高达 30%。Nemotron 3 Ultra 旨在解决长周期 AI 任务中的效率与成本瓶颈，为开发者提供更经济、更快速的智能体部署方案。NVIDIA 强调其“前沿智能”级别性能，并保持开源，进一步推动 AI 生态发展。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体开发和部署的团队终于有了一个兼顾性能与成本的开源选择——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低值得直接上手测试。

原文

6月2日

07:56

Fireworks AI@FireworksAI_HQ

精选76°

StepFun 发布 Step 3.7 Flash，一个 196B 参数的 MoE 模型，从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力（MFA）技术，KV-cache 仅为 DeepSeek 的约 22%，并通过注意力-FFN 解耦（AFD）实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一，支持 400 TPS 的推理速度，256K 上下文窗口，并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计，支持本地运行（如 Mac Studio M4 Max），并采用 Apache 2.0 许可证开放权重。

AI模型 Step 3.7 Flash MoE 推理效率 MFA Apache 2.0

推荐理由：Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去，做智能体或搜索应用的团队可以直接在 Fireworks 上试用，成本可能比 DeepSeek 低很多。

原文

00:27

rohanpaul_ai@rohanpaul_ai

精选76°

Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型（SSM）与混合专家（MoE）架构，SSM 部分专为长序列设计，使模型能够更长时间地保持推理或使用工具，而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。

AI模型 Nemotron 3 Ultra Nvidia SSM MoE 长序列推理

推荐理由：Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点，做长上下文应用或工具调用的开发者值得关注，可以直接期待其发布。

原文

5月30日

01:17

berryxia@berryxia

Liquid AI 发布 LFM2.5-8B-A1B 模型，这是一个 8B MoE 模型，但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL，支持 128K 上下文，工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环，延迟低且全程隐私安全，无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架，覆盖 Apple、NVIDIA、AMD 硬件，表明本地 Agent 落地比预期更快。

AI模型 Liquid AI LFM2.5-8B-A1B MoE 本地Agent 工具调用

推荐理由：本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果，笔记本就能部署，隐私和延迟都解决了，做本地自动化的建议直接试。

原文

5月29日

12:15

OpenRouter@OpenRouterAI

精选

阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态（图像/视频/文本）MoE 架构，总参数量达 196B，但推理时仅激活 11B 参数，效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优，并支持可选的推理级别，用户可根据需求在速度、成本和深度之间灵活权衡。

AI模型阶跃星辰 Step 3.7 Flash MoE 多模态编程助手

推荐理由：做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B，成本可控且支持灵活推理级别，建议在 OpenRouter 上直接试。

原文

09:06

NVIDIA AI@NVIDIAAI

精选76°

NVIDIA 宣布推出 Step 3.7 Flash 模型，这是一个 198B 参数的混合专家（MoE）模型，但仅需 11B 活跃参数即可运行，大幅降低推理成本。该模型支持 256K 上下文长度，并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用，也可通过 NVIDIA NIM 微服务部署，并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展，尤其适合需要多模态理解和长上下文处理的应用场景。

AI模型 Step 3.7 Flash NVIDIA MoE 多模态长上下文

推荐理由：198B 参数但仅 11B 活跃，推理效率极高，做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用，省成本又省心。

原文

5月25日

12:04

AI Will@FinanceYF5

精选72°

论文 MoE 专家计算推理优化 ZEDA 大模型效率

推荐理由：做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算，省成本又提速，值得在自家模型上试试。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

02:06

berryxia@berryxia

83°

DeepSeek 是一家中国 AI 公司，面对美国 GPU 禁运，没有堆算力，而是通过算法创新（如 KV Cache 压缩 90%、MoE 极致优化、Engram 模块）大幅降低训练和推理成本。其 V4 Pro 模型在 1M 上下文下仅需 5.48GB HBM，远低于竞品。这些技术不仅让长时序 Agent 经济可行，还盘活了中国 NAND 和 LPDDR 资源，缓解 HBM 依赖。DeepSeek 开源了整个框架，旨在打造 10 万亿美元的 AI 硬件新生态，估值目标 1 万亿美元。

AI产品 DeepSeek MoE KV Cache 开源/仓库硬件生态

推荐理由：DeepSeek 用算法创新打破了 GPU 禁运的困局，做长上下文 Agent 的开发者可以直接用 V4 Pro 体验成本暴降的效果，做硬件生态的团队值得研究其开源架构。

原文

5月24日

13:52

rohanpaul_ai@rohanpaul_ai

精选75°

DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术，将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%，KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%，同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖，使中国内存、加速器和系统适用于前沿 AI。

AI模型 DeepSeek MoE DSA 推理模型大模型

推荐理由：DeepSeek 用架构创新绕过硬件瓶颈

原文

5月20日

14:27

rohanpaul_ai@rohanpaul_ai

76°

中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型，采用原生多模态建模和MoT架构（38B激活3B MoE）。该模型将多模态生成视为一个统一的建模问题，而非分离的视觉、语言和图像模块链，从而减少了模块间的信息损失，提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出，如信息图、指南、海报、漫画等。它支持ComfyUI，推理速度快（A3B），为密集视觉内容创作提供了高效工具。

AI模型 SenseNova U1 多模态模型 MoT架构 MoE 开源/仓库

推荐理由：SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题，做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验，效果惊艳。

原文

5月15日

23:35

berryxia@berryxia

精选73°

Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts（MoE）的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络，推理时仅激活部分专家，虽参数更多但计算更快。模型通过 Router（多分类器）为每个 token 选择 top-K 专家，但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决，后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。

AI模型 Transformer MoE 路由机制负载均衡 Mixtral 8x7B

推荐理由：想搞懂 MoE 为什么又快又强，这篇视觉解释把路由和负载均衡的坑讲透了，做模型训练或推理优化的开发者值得一看。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

原文

5月13日

15:51

Perplexity@perplexity_ai

精选

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。

原文