16:38marktechpost@Asif RazzaqCohere 推出了其首个面向开发者的编程模型 North Mini Code,采用混合专家架构,总参数量 30B,但每次推理仅激活 3B 参数,可在单张 H100 GPU 上运行。该模型支持 256K 上下文长度,专为智能体编程场景设计,能够高效处理代码生成、调试和自动化任务。作为开源权重模型,它降低了开发者部署高性能编程模型的门槛,尤其适合资源受限的团队。这一发布标志着 Cohere 正式进入 AI 编程助手领域,与 Code Llama、StarCoder 等模型竞争。AI模型CohereNorth Mini Code混合专家模型编程助手智能体10 个信源在谈推荐理由:Cohere 用 3B 活跃参数实现了 30B 模型的效果,做智能体编程的团队可以在单卡 H100 上直接部署,省成本又高效,建议做代码自动化的开发者试试。原文
12:20arXiv cs.AI@Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames精选HANDOFF 提出了一种紧凑、直观的接口,用于人形机器人的任务规划与全身控制之间的连接。该接口通过多教师 KL 蒸馏和上下文条件门控机制,将三个互补专家(全身运动跟踪、行走、跌倒恢复)蒸馏成一个混合专家学生模型。在 Unitree G1 机器人上,HANDOFF 实现了与最先进方法相当的行走速度跟踪,并提供了最大的鲁棒操作工作空间之一。此外,通过 VLM 驱动的智能体规划器,无需任务特定数据或控制器微调,即可实现自然语言驱动的任务执行。这项工作为人形机器人在现实世界中的部署提供了更高效、更通用的控制方案。论文人形机器人全身控制知识蒸馏混合专家模型Unitree G1推荐理由:人形机器人开发者终于有了一个更直观、通用的控制接口——HANDOFF 通过蒸馏多个专家模型,让机器人能同时做好行走、操作和跌倒恢复,做机器人全身控制的团队可以直接参考其方法。原文
09:02rohanpaul_ai@rohanpaul_ai精选在本地运行LLM的桌面应用atomic[.]chat上,Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中,Nemotron 3 Ultra以11.3k tokens、0.051美元的成本,给出了与GPT-5.5(11.0k tokens、0.57美元)几乎相同的结果,成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型,拥有5500亿总参数,但每个token仅激活55亿参数,因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势,尤其适合需要高推理质量但预算有限的场景。AI模型Nemotron 3 UltraGPT-5.5混合专家模型成本对比本地推理10 个信源在谈推荐理由:做AI应用或本地推理的开发者,这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果,值得在项目里试试。原文
05:48marktechpost@Asif Razzaq83°NVIDIA 发布了 Nemotron 3 Ultra,一个 550B 总参数(55B 激活)的开放混合专家模型,采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口,推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方,遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈,为 AI 代理和复杂任务自动化提供了更高效的基础模型。AI模型NVIDIANemotron 3 Ultra混合专家模型长上下文智能体10 个信源在谈推荐理由:长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本,做 Agent 或 RAG 系统的团队值得直接试。原文
11:13AK@_akhaliq精选dMoE 是一种新型动态混合专家(Mixture of Experts)架构,通过引入可学习的块专家(Learnable Block Experts)来替代传统固定专家。该方法允许模型根据输入动态调整专家组合,提升效率和性能。实验表明,dMoE 在多个基准测试上优于标准 MoE 和密集模型,同时计算成本更低。该工作由研究团队在 Twitter 上公开,引发了社区关注。论文dMoE混合专家模型动态架构高效推理论文推荐理由:dMoE 解决了传统 MoE 专家固定、效率低的问题,做模型压缩和高效推理的团队值得关注,可以尝试复现或集成到自己的工作中。原文
05:02rohanpaul_ai@rohanpaul_ai88°微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。AI模型推理模型微软MAI-Thinking-1混合专家模型强化学习推荐理由:微软用自研数据+强化学习打造了强推理模型,做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论,尤其是 35B 激活参数就能达到接近顶尖水平的效率。原文
12:50IT之家(博客/媒体)精选78°英伟达发布 Nemotron 3 Ultra 开源模型,拥有 5500 亿参数,采用混合专家架构,专为全天候运行的自主智能体设计。该模型在推理速度上较同级别前沿模型最高提升 5 倍,使用成本降低 30%,并已适配 Hermes Agent、LangChain 等主流智能体平台。同时推出安全防护和语音识别模型,增强企业级智能体能力。CrowdStrike 和 Palantir 已将其用于网络安全和业务流程自动化。模型将于 6 月 4 日通过 Hugging Face 等平台以 NIM 微服务形式开放。AI模型英伟达Nemotron 3 Ultra开源模型智能体混合专家模型5 个信源在谈推荐理由:英伟达把大模型推理速度和成本同时优化了,做智能体开发或企业自动化的团队可以直接用上,比现有开源方案更高效省钱,值得关注。原文
11:56arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho精选72°该研究提出了首个系统化框架,将混合专家模型(MoE)转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络,再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法,共350种配置。发现评分方法影响最大,其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下,MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点,训练速度快1.6倍。论文模型压缩知识蒸馏混合专家模型稠密模型Qwen3推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。原文
14:44rohanpaul_ai@rohanpaul_ai精选有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型,速度超过4 tokens/sec。Kimi K2.5是混合专家模型,总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分,专家权重存储在Optane PMem中,192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多,但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置,实现混合GPU/CPU推理。AI模型Kimi K2.5混合专家模型推理模型开源/仓库大模型推荐理由:用旧硬件跑万亿模型,省钱又酷原文
11:26arXiv cs.LG@Huanchi Wang, Zihang Huang, Yifang Tian, Kristina Dzeparoska, Hans-Arno Jacobsen, Alberto Leon-Garcia精选FAME 提出了一种标签高效的混合专家框架,用于消息级日志异常检测。传统方法在会话或窗口级别检测异常,粒度粗糙,迫使运维人员检查大量常规日志行。FAME 通过离线使用一次大语言模型,为每个模板标注最多 K 行,生成正常/异常指示符和代表性示例,并自动将模板划分为故障域。训练后的轻量路由器和领域专家可在本地运行,输出异常预测和故障域标签。在 BGL 数据集上,FAME 在 K=100 时达到 F1=98.16,标注量减少 76 倍,并检测出 86.3% 的未见 EventID 异常;在 Thunderbird 上达到 F1=99.95 且召回率完美。论文日志异常检测混合专家模型LLM标签高效故障域推荐理由:运维团队终于有了兼顾精度和效率的日志异常检测方案——FAME 用一次 LLM 离线标注就解决了消息级检测的痛点,标注量减少 76 倍还能发现未知故障,做日志分析或运维自动化的开发者值得关注。原文
11:25arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun精选PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。论文LLM推理功耗优化混合专家模型vLLM能效推荐理由:数据中心GPU能耗是AI部署的隐形杀手,PALS把功耗从硬约束变成可调参数,做LLM服务部署的团队可以直接在vLLM上集成,省电又保性能,值得一试。原文