05:27marktechpost@Asif RazzaqStepFun 发布了 Step 3.7 Flash,一个 198B 参数的 MoE(混合专家)视觉语言模型,原生支持视觉理解、256k 上下文窗口和 Advisor Mode(顾问模式)。该模型针对编程智能体和搜索工作流进行了优化,能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展,尤其适合需要长上下文理解和视觉-语言联合推理的场景。AI模型Step 3.7 FlashMoE视觉语言模型编程智能体搜索工作流推荐理由:做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力,Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率,值得关注。原文
01:17berryxia@berryxiaLiquid AI 发布 LFM2.5-8B-A1B 模型,这是一个 8B MoE 模型,但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL,支持 128K 上下文,工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环,延迟低且全程隐私安全,无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架,覆盖 Apple、NVIDIA、AMD 硬件,表明本地 Agent 落地比预期更快。AI模型Liquid AILFM2.5-8B-A1BMoE本地Agent工具调用6 个信源在谈推荐理由:本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果,笔记本就能部署,隐私和延迟都解决了,做本地自动化的建议直接试。原文
12:15OpenRouter@OpenRouterAI精选阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态(图像/视频/文本)MoE 架构,总参数量达 196B,但推理时仅激活 11B 参数,效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优,并支持可选的推理级别,用户可根据需求在速度、成本和深度之间灵活权衡。AI模型阶跃星辰Step 3.7 FlashMoE多模态编程助手2 个信源在谈推荐理由:做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B,成本可控且支持灵活推理级别,建议在 OpenRouter 上直接试。原文
11:17pandaily@contact@pandaily.com (Pandaily)78°Stepfun 开源了 Step 3.7 Flash,这是一个 196B 参数的稀疏 MoE 大语言模型,专为智能体工作流优化。该模型推理速度达 400 tokens/s,并原生支持工具调用,能高效执行复杂任务。开源此举旨在推动智能体生态发展,降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异,尤其适合需要快速响应和工具集成的场景。AI模型Step 3.7 FlashMoE智能体工具调用开源推荐理由:做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率,建议直接上手测试。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
07:36marktechpost@Asif RazzaqLiquid AI 发布了 LFM2.5-8B-A1B,一款面向端侧设备的混合专家(MoE)模型。该模型总参数量为 8.3B,但每次推理仅激活 1.5B 参数,大幅降低了计算和内存需求。它支持 128K 上下文长度,具备推理和工具调用能力,可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡,为移动设备和边缘计算场景提供了新的选择。AI模型端侧模型MoELiquid AI推理模型工具调用推荐理由:端侧部署大模型一直受限于算力和内存,LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用,做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。原文
11:54arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna这篇论文系统研究了混合专家(MoE)大模型推理中的多级解耦策略,从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦(AFD)。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上,以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架,论文在真实工作负载下评估了各级解耦的收益与局限。结果表明,在严格的 TTFT/TPOT 服务等级目标下,AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量,而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议,为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。论文MoE推理优化解耦架构Attention-FFNDeepSeek-V3.2推荐理由:MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平,做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。原文
10:30arXiv cs.AI@Yanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi精选76°MobileMoE 是一系列专为移动设备设计的混合专家(MoE)语言模型,活跃参数在0.3B到0.9B之间,总参数1.3B到5.3B。研究团队首次提出了面向设备端的MoE缩放定律,在内存和计算约束下优化架构,找到了中等稀疏度与细粒度共享专家的最佳平衡点。模型采用四阶段训练流程(预训练、中训练、指令微调、量化感知训练),全部基于开源数据集。在14个基准测试中,MobileMoE以2-4倍更少的推理FLOPs匹配或超越领先的密集模型,并以最多60%更少的参数超越SOTA MoE模型OLMoE-1B-7B。在商用智能手机上,MobileMoE-S在INT4权重内存下比密集基线MobileLLM-Pro实现1.8-3.8倍更快的预填充和2.2-3.4倍更快的解码。论文MoE移动端部署缩放定律量化训练MobileMoE推荐理由:MobileMoE解决了移动端大模型部署的算力与内存瓶颈,做端侧AI应用或手机端推理的开发者可以直接参考其架构和训练方案,实测性能提升显著。原文
12:04AI Will@FinanceYF5精选72°最新研究发现,MoE(混合专家)大模型中大量 token 实际上不需要专家处理,导致约一半的专家计算被浪费。论文提出的 ZEDA 方法让模型学会“该省就省”,最高可跳过约 50% 的专家计算,显著提升推理效率。这一发现对降低大模型部署成本、加速推理有重要意义,尤其适合资源受限场景。论文MoE专家计算推理优化ZEDA大模型效率推荐理由:做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算,省成本又提速,值得在自家模型上试试。原文
02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
02:06berryxia@berryxia83°DeepSeek 是一家中国 AI 公司,面对美国 GPU 禁运,没有堆算力,而是通过算法创新(如 KV Cache 压缩 90%、MoE 极致优化、Engram 模块)大幅降低训练和推理成本。其 V4 Pro 模型在 1M 上下文下仅需 5.48GB HBM,远低于竞品。这些技术不仅让长时序 Agent 经济可行,还盘活了中国 NAND 和 LPDDR 资源,缓解 HBM 依赖。DeepSeek 开源了整个框架,旨在打造 10 万亿美元的 AI 硬件新生态,估值目标 1 万亿美元。AI产品DeepSeekMoEKV Cache开源/仓库硬件生态推荐理由:DeepSeek 用算法创新打破了 GPU 禁运的困局,做长上下文 Agent 的开发者可以直接用 V4 Pro 体验成本暴降的效果,做硬件生态的团队值得研究其开源架构。原文
13:52rohanpaul_ai@rohanpaul_ai精选75°DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术,将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%,KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%,同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖,使中国内存、加速器和系统适用于前沿 AI。AI模型DeepSeekMoEDSA推理模型大模型推荐理由:DeepSeek 用架构创新绕过硬件瓶颈原文
09:46arXiv cs.AI@Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein精选MoE 专家并行中的 AlltoAll 调度是主要瓶颈,业界提出四种缓解方案,但都基于两个假设:路由不均衡可由系统层修正,以及模拟 token 基准能代表真实生产路由。DODOCO 工具在五个 MoE 检查点(DeepSeek-V2-Lite MLA、DeepSeek-MoE-16B MHA、Qwen3-30B GQA、Nemotron-30B Mamba-2、Qwen3.5-35B GDN)上测试了这些假设,发现两者均不成立。扩展 EP 时,每个专家的最大/平均 token 比变化不超过 5%,表明 straggler 是模型路由决策固有的,而非专家在 rank 上的分布。模拟 token 高估路由 Gini 系数最多 2.35 倍,并制造出虚假的 batch-size 缩放趋势。五种架构分为两个稳定带:MHA 和 Mamba-2 在真实文本上 Gini 降至 0.105-0.150,而 MLA 和 GDN 始终高于 0.24。论文MoE专家并行AlltoAll调度路由不均衡系统优化推荐理由:做 MoE 系统优化或互联设计的工程师,这篇论文用实测数据推翻了行业两个核心假设,直接告诉你路由不均衡是模型固有、模拟测试不可信,看完能避免在错误方向上投入精力。原文
14:27rohanpaul_ai@rohanpaul_ai76°中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型,采用原生多模态建模和MoT架构(38B激活3B MoE)。该模型将多模态生成视为一个统一的建模问题,而非分离的视觉、语言和图像模块链,从而减少了模块间的信息损失,提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出,如信息图、指南、海报、漫画等。它支持ComfyUI,推理速度快(A3B),为密集视觉内容创作提供了高效工具。AI模型SenseNova U1多模态模型MoT架构MoE开源/仓库推荐理由:SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题,做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验,效果惊艳。原文
10:42arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae精选72°本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。论文推理模型并行策略KV缓存MoE系统优化推荐理由:这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。原文
14:02arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin精选DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。论文MoE专家专业化基准测试路由机制后训练优化推荐理由:MoE模型的路由机制一直是个黑盒,DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队,可以用这套指标直接优化后训练效率,省资源又提效果,值得一试。原文
23:35berryxia@berryxia精选73°Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts(MoE)的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络,推理时仅激活部分专家,虽参数更多但计算更快。模型通过 Router(多分类器)为每个 token 选择 top-K 专家,但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决,后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。AI模型TransformerMoE路由机制负载均衡Mixtral 8x7B推荐理由:想搞懂 MoE 为什么又快又强,这篇视觉解释把路由和负载均衡的坑讲透了,做模型训练或推理优化的开发者值得一看。原文
14:13Cohere@cohere精选Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。原文
13:27arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang精选MinT(MindLab Toolkit)是一个专为低秩适配(LoRA)后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景,通过保持基座模型常驻内存,仅移动导出的LoRA适配器,避免了合并完整检查点的开销。MinT沿三个维度扩展:向上支持超过1T总参数的前沿密集和MoE架构;向下实现适配器仅占基座模型1%以下大小,在4B密集模型上步骤时间减少18.3倍;向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。论文LoRA训练/推理基础设施MoE大规模部署MinT推荐理由:做大规模LoRA训练和推理的团队终于有了正经的工程方案——MinT解决了策略数量爆炸时的资源浪费问题,用适配器分离和调度大幅降低成本,搞大模型服务的建议点开看看。原文
01:10DeepSeek: GitHub 新仓库(资讯)75°DeepSeek 开源了 DeepEP,这是首个专为 MoE(混合专家)模型设计的专家并行(EP)通信库。它提供了高吞吐、低延迟的 GPU 内核,支持训练和推理中的全到全通信。DeepEP 还支持低精度操作,如 FP8,并引入了高效的稀疏通信技术。该库已开源在 GitHub 上,开发者可以访问其 Pull Requests 页面了解更多。AI模型DeepSeekMoEEP通信库开源/仓库分布式训练推荐理由:MoE 模型的通信瓶颈一直是训练和推理的痛点,DeepEP 专为此优化,做大规模分布式训练的团队值得关注。原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek发布了DeepEP通信库,专为MoE模型的all-to-all通信优化。该库支持FP8计算和低延迟,在MoE训练和推理中提升效率。DeepEP已在GitHub开源,提供高性能通信接口。AI产品DeepEPDeepSeekMoE通信库开源推荐理由:DeepSeek开源MoE通信库原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek 宣布开源 DeepEP 项目,截至发稿在 GitHub 上获得 9,617 个星标。DeepEP 是一个用于高效专家并行(Expert Parallelism)的通信库,旨在降低 MoE 模型推理中的通信延迟。该项目基于 DeepSeek 内部实践,可帮助开发者优化大规模 MoE 部署。AI产品DeepEPDeepSeek开源推理优化MoE推荐理由:DeepSeek 开源了高效推理库原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek发布DeepEP,一个专为MoE模型设计的开源专家并行通信库。DeepEP利用NVLink实现高吞吐量、低延迟的全对全通信。该库同时支持训练和推理场景,优化了分布式MoE的效率。AI模型DeepEPDeepSeekMoE专家并行开源推荐理由:DeepSeek开源了让MoE训练更快的通信库原文
21:35DeepSeek: GitHub 新仓库(资讯)DeepSeek 发布了 DeepEP,这是一个专为 MoE(混合专家)模型设计的高效通信库,旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练,并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度,进一步提升了性能。对于使用 MoE 架构的团队,DeepEP 可以直接集成到现有框架中,显著减少通信开销。AI模型MoE通信库DeepSeek开源/仓库GPU优化推荐理由:MoE 模型的通信瓶颈是训练和推理的常见痛点,DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队,值得集成试试。原文
19:12arXiv: DeepSeek@Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong精选混合专家(MoE)大模型通过稀疏激活专家实现高效扩展,但频繁切换专家造成内存带宽瓶颈,而模拟存算一体(CIM)架构可缓解此问题。然而,模拟CIM的硬件缺陷会扰动存储权重,其对MoE模型的影响此前未被系统研究。本文首次基于真实芯片噪声校准,发现硬件噪声会破坏专家负载均衡,使训练好的路由决策失效。为此提出ROMER后训练校准框架:替换低激活专家为高频专家以恢复负载均衡,并通过百分位数归一化重新校准路由器logits。在DeepSeek-MoE、Qwen-MoE和OLMoE上,ROMER在真实芯片噪声下将困惑度分别降低58.6%、58.8%和59.8%,验证了其有效性和跨架构泛化能力。论文MoE存算一体硬件噪声后训练校准鲁棒性推荐理由:模拟存算一体是突破大模型内存墙的关键路线,但硬件噪声对MoE架构的破坏一直未被正视。做硬件-算法协同设计的团队,这篇论文给出了可直接复用的校准方案,值得细读。原文
15:51Perplexity@perplexity_ai精选Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。原文
19:03arXiv: DeepSeek(学术论文)意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。论文大语言模型MoE意大利语EngGPT2基准测试推荐理由:该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。原文