22:39阿里通义 Qwen@Alibaba_Qwen精选73°阿里Qwen团队开源了Qwen-AgentWorld-35B-A3B模型,采用MoE架构,总参数量35B,每次推理激活3B参数,支持256K上下文长度。同时发布了AgentWorldBench基准,用于评估智能体的世界建模能力。该模型在多个现实环境模拟任务上表现优于同等规模模型。相关论文已发布于arXiv,代码和模型权重在GitHub和Hugging Face上开放。AI模型QwenAgentWorldMoE智能体世界建模推荐理由:阿里新开源了35B参数的MoE模型,只激活3B,256K超长上下文,配合AgentWorldBench,研究智能体世界建模的赶紧试试。原文
15:27marktechpost@Asif Razzaq精选Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。AI产品prime-rlGLM-5Prime Intellect强化学习MoE8 个信源在谈推荐理由:Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。原文
12:57歸藏(guizang.ai)@op7418精选71°Noam Shazeer(Transformer论文作者之一、MoE架构提出者)加入OpenAI,负责模型架构研究。谷歌此前以27亿美元收购Character.AI换取他加入谷歌。但Shazeer在谷歌停留短暂后即转投OpenAI。行业Noam ShazeerTransformerMoEOpenAICharacter.AI模型架构10 个信源在谈推荐理由:Transformer论文作者Noam Shazeer,MoE提出者,跑到OpenAI研究模型架构了,谷歌27亿美元白花了?原文
12:59@atomic_chat_hq@atomic_chat_hq精选Liquid 的 LFM2.5-8B-A1B(8B总参、1B激活)在 MacBook Pro M5 Max 上本地运行,与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务,LFM2.5-8B-A1B 全部成功,而 gpt-oss-20b 仅完成 3 个。内存方面,LFM2.5-8B-A1B 仅用 4.8 GB,远低于对手的 11 GB。速度上,LFM2.5-8B-A1B 达到 266 tok/s,总耗时 6.9 s,而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构,实现了小参数下的高效工具调用。AI模型LiquidLFM2.5-8B-A1Bgpt-oss-20b工具调用MoE10 个信源在谈推荐理由:Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具,速度还快两倍,本地跑 agent 任务很实用。原文
11:12歸藏(guizang.ai)@op7418精选81°Noam Shazeer,Character AI前CEO、Transformer论文作者之一及混合专家模型(MoE)架构提出者,宣布加入OpenAI。谷歌曾以27亿美元收购Character AI,旨在换取Shazeer加入,但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位,称期待与OpenAI团队合作。行业Noam ShazeerOpenAITransformerMoE行业动态10 个信源在谈推荐理由:Transformer和MoE的发明者从谷歌跳到OpenAI了,看看他能为GPT-5带来什么新架构。原文
09:21arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao精选该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题,提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题,通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验,结合4-bit量化后,50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上,内存占用减少5.27倍,优于现有基线。论文MoE结构剪枝量化DeepSeekQwen推荐理由:想省显存又怕掉精度?这篇论文用通道级剪枝加4-bit量化,把MoE模型体积砍到1/5还能保住性能,DeepSeek和Qwen都能用。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
12:20Tri Dao (FlashAttention)@tri_dao精选WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。AI模型MoE反向传播内存优化Blackwell加速10 个信源在谈推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
11:27arXiv cs.AI@Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin精选Mixture-of-Experts (MoE) 模型中的路由器负责决定激活哪些专家,但其设计缺乏理论指导。本文提出将每个路由器行与对应专家的主奇异方向对齐,因为该方向能最有效地描述矩阵。基于此,作者设计了 Manifold Power Iteration (MPI) 方法,采用“先幂迭代再收缩”的范式,使路由器行收敛到专家的主奇异方向。实验在 1B 到 11B 参数的 MoE 模型上验证,该方法显著提升了模型效果。论文MoE路由器设计主奇异方向Manifold Power Iteration模型优化推荐理由:MoE 模型的路由器设计长期缺乏理论依据,MPI 给出了可解释的优化方向,做大规模 MoE 训练的团队值得关注,能直接提升模型效率。原文
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang精选76°快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。AI模型开源/仓库MoE长视频理解智能体多模态推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。原文
08:12lmarena.ai@lmarena_ai精选83°NVIDIA 今日正式发布 Nemotron 3 Ultra,这是一款 550B 参数的混合专家(MoE)开源模型,定位为前沿智能(frontier-intelligence)模型,专为长时间运行的智能体任务打造。相比其他开源前沿模型,Nemotron 3 Ultra 推理速度提升 5 倍,复杂智能体任务成本降低高达 30%。该模型旨在解决当前开源模型在长周期、高复杂度任务中推理慢、成本高的问题,为开发者提供更高效的智能体基础设施。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体开发和部署的团队终于有了一个开源的高效选择——Nemotron 3 Ultra 直接降低长任务推理成本 30%,建议关注并测试其在实际 agent 场景中的表现。原文
16:05marktechpost@Asif Razzaq精选JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,基于 Apache 2.0 开源协议。该模型在 10.6 万亿 token 上训练,专为多模型 AI 流水线中的快速专用任务优化,如代码补全、重构建议等。Mellum2 旨在平衡性能与效率,适合集成到开发工具中,提升开发者体验。其 MoE 架构使其在保持较小激活参数的同时,实现高精度输出。AI模型JetBrainsMellum2MoE代码补全开源/仓库推荐理由:JetBrains 把 MoE 模型塞进开发者工具链,做 IDE 插件或代码分析工具的团队可以直接用 Mellum2 替换通用模型,提升响应速度且不牺牲质量。原文
07:56Fireworks AI@FireworksAI_HQ精选76°StepFun 发布 Step 3.7 Flash,一个 196B 参数的 MoE 模型,从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力(MFA)技术,KV-cache 仅为 DeepSeek 的约 22%,并通过注意力-FFN 解耦(AFD)实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一,支持 400 TPS 的推理速度,256K 上下文窗口,并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计,支持本地运行(如 Mac Studio M4 Max),并采用 Apache 2.0 许可证开放权重。AI模型Step 3.7 FlashMoE推理效率MFAApache 2.0推荐理由:Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去,做智能体或搜索应用的团队可以直接在 Fireworks 上试用,成本可能比 DeepSeek 低很多。原文
00:33Hugging Face: Blog(博客/媒体)精选72°JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。AI模型JetBrainsMellum2MoE代码生成开源/仓库推荐理由:JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案,用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验,看看它能否提升你的编码效率。原文
00:27rohanpaul_ai@rohanpaul_ai精选76°Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型(SSM)与混合专家(MoE)架构,SSM 部分专为长序列设计,使模型能够更长时间地保持推理或使用工具,而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。AI模型Nemotron 3 UltraNvidiaSSMMoE长序列推理9 个信源在谈推荐理由:Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点,做长上下文应用或工具调用的开发者值得关注,可以直接期待其发布。原文
12:15OpenRouter@OpenRouterAI精选阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态(图像/视频/文本)MoE 架构,总参数量达 196B,但推理时仅激活 11B 参数,效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优,并支持可选的推理级别,用户可根据需求在速度、成本和深度之间灵活权衡。AI模型阶跃星辰Step 3.7 FlashMoE多模态编程助手2 个信源在谈推荐理由:做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B,成本可控且支持灵活推理级别,建议在 OpenRouter 上直接试。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:30arXiv cs.AI@Yanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi精选76°MobileMoE 是一系列专为移动设备设计的混合专家(MoE)语言模型,活跃参数在0.3B到0.9B之间,总参数1.3B到5.3B。研究团队首次提出了面向设备端的MoE缩放定律,在内存和计算约束下优化架构,找到了中等稀疏度与细粒度共享专家的最佳平衡点。模型采用四阶段训练流程(预训练、中训练、指令微调、量化感知训练),全部基于开源数据集。在14个基准测试中,MobileMoE以2-4倍更少的推理FLOPs匹配或超越领先的密集模型,并以最多60%更少的参数超越SOTA MoE模型OLMoE-1B-7B。在商用智能手机上,MobileMoE-S在INT4权重内存下比密集基线MobileLLM-Pro实现1.8-3.8倍更快的预填充和2.2-3.4倍更快的解码。论文MoE移动端部署缩放定律量化训练MobileMoE推荐理由:MobileMoE解决了移动端大模型部署的算力与内存瓶颈,做端侧AI应用或手机端推理的开发者可以直接参考其架构和训练方案,实测性能提升显著。原文
12:04AI Will@FinanceYF5精选72°最新研究发现,MoE(混合专家)大模型中大量 token 实际上不需要专家处理,导致约一半的专家计算被浪费。论文提出的 ZEDA 方法让模型学会“该省就省”,最高可跳过约 50% 的专家计算,显著提升推理效率。这一发现对降低大模型部署成本、加速推理有重要意义,尤其适合资源受限场景。论文MoE专家计算推理优化ZEDA大模型效率推荐理由:做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算,省成本又提速,值得在自家模型上试试。原文
02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
13:52rohanpaul_ai@rohanpaul_ai精选75°DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术,将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%,KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%,同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖,使中国内存、加速器和系统适用于前沿 AI。AI模型DeepSeekMoEDSA推理模型大模型推荐理由:DeepSeek 用架构创新绕过硬件瓶颈原文
09:46arXiv cs.AI@Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein精选MoE 专家并行中的 AlltoAll 调度是主要瓶颈,业界提出四种缓解方案,但都基于两个假设:路由不均衡可由系统层修正,以及模拟 token 基准能代表真实生产路由。DODOCO 工具在五个 MoE 检查点(DeepSeek-V2-Lite MLA、DeepSeek-MoE-16B MHA、Qwen3-30B GQA、Nemotron-30B Mamba-2、Qwen3.5-35B GDN)上测试了这些假设,发现两者均不成立。扩展 EP 时,每个专家的最大/平均 token 比变化不超过 5%,表明 straggler 是模型路由决策固有的,而非专家在 rank 上的分布。模拟 token 高估路由 Gini 系数最多 2.35 倍,并制造出虚假的 batch-size 缩放趋势。五种架构分为两个稳定带:MHA 和 Mamba-2 在真实文本上 Gini 降至 0.105-0.150,而 MLA 和 GDN 始终高于 0.24。论文MoE专家并行AlltoAll调度路由不均衡系统优化推荐理由:做 MoE 系统优化或互联设计的工程师,这篇论文用实测数据推翻了行业两个核心假设,直接告诉你路由不均衡是模型固有、模拟测试不可信,看完能避免在错误方向上投入精力。原文
10:42arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae精选72°本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。论文推理模型并行策略KV缓存MoE系统优化推荐理由:这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。原文
14:02arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin精选DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。论文MoE专家专业化基准测试路由机制后训练优化推荐理由:MoE模型的路由机制一直是个黑盒,DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队,可以用这套指标直接优化后训练效率,省资源又提效果,值得一试。原文
23:35berryxia@berryxia精选73°Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts(MoE)的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络,推理时仅激活部分专家,虽参数更多但计算更快。模型通过 Router(多分类器)为每个 token 选择 top-K 专家,但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决,后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。AI模型TransformerMoE路由机制负载均衡Mixtral 8x7B推荐理由:想搞懂 MoE 为什么又快又强,这篇视觉解释把路由和负载均衡的坑讲透了,做模型训练或推理优化的开发者值得一看。原文
14:13Cohere@cohere精选Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。原文
13:27arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang精选MinT(MindLab Toolkit)是一个专为低秩适配(LoRA)后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景,通过保持基座模型常驻内存,仅移动导出的LoRA适配器,避免了合并完整检查点的开销。MinT沿三个维度扩展:向上支持超过1T总参数的前沿密集和MoE架构;向下实现适配器仅占基座模型1%以下大小,在4B密集模型上步骤时间减少18.3倍;向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。论文LoRA训练/推理基础设施MoE大规模部署MinT推荐理由:做大规模LoRA训练和推理的团队终于有了正经的工程方案——MinT解决了策略数量爆炸时的资源浪费问题,用适配器分离和调度大幅降低成本,搞大模型服务的建议点开看看。原文
19:12arXiv: DeepSeek@Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong精选混合专家(MoE)大模型通过稀疏激活专家实现高效扩展,但频繁切换专家造成内存带宽瓶颈,而模拟存算一体(CIM)架构可缓解此问题。然而,模拟CIM的硬件缺陷会扰动存储权重,其对MoE模型的影响此前未被系统研究。本文首次基于真实芯片噪声校准,发现硬件噪声会破坏专家负载均衡,使训练好的路由决策失效。为此提出ROMER后训练校准框架:替换低激活专家为高频专家以恢复负载均衡,并通过百分位数归一化重新校准路由器logits。在DeepSeek-MoE、Qwen-MoE和OLMoE上,ROMER在真实芯片噪声下将困惑度分别降低58.6%、58.8%和59.8%,验证了其有效性和跨架构泛化能力。论文MoE存算一体硬件噪声后训练校准鲁棒性推荐理由:模拟存算一体是突破大模型内存墙的关键路线,但硬件噪声对MoE架构的破坏一直未被正视。做硬件-算法协同设计的团队,这篇论文给出了可直接复用的校准方案,值得细读。原文
15:51Perplexity@perplexity_ai精选Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。原文