AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:混合专家模型×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月5日
09:02
09:02rohanpaul_ai@rohanpaul_ai
精选
在本地运行LLM的桌面应用atomic[.]chat上,Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中,Nemotron 3 Ultra以11.3k tokens、0.051美元的成本,给出了与GPT-5.5(11.0k tokens、0.57美元)几乎相同的结果,成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型,拥有5500亿总参数,但每个token仅激活55亿参数,因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势,尤其适合需要高推理质量但预算有限的场景。
AI模型Nemotron 3 UltraGPT-5.5混合专家模型成本对比本地推理

推荐理由:做AI应用或本地推理的开发者,这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果,值得在项目里试试。
原文
6月4日
11:13
11:13AK@_akhaliq
精选
dMoE 是一种新型动态混合专家(Mixture of Experts)架构,通过引入可学习的块专家(Learnable Block Experts)来替代传统固定专家。该方法允许模型根据输入动态调整专家组合,提升效率和性能。实验表明,dMoE 在多个基准测试上优于标准 MoE 和密集模型,同时计算成本更低。该工作由研究团队在 Twitter 上公开,引发了社区关注。
论文dMoE混合专家模型动态架构高效推理论文

推荐理由:dMoE 解决了传统 MoE 专家固定、效率低的问题,做模型压缩和高效推理的团队值得关注,可以尝试复现或集成到自己的工作中。
原文
6月3日
05:02
05:02rohanpaul_ai@rohanpaul_ai
88°
微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。
AI模型推理模型微软MAI-Thinking-1混合专家模型强化学习

推荐理由:微软用自研数据+强化学习打造了强推理模型,做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论,尤其是 35B 激活参数就能达到接近顶尖水平的效率。
原文
5月24日
14:44
14:44rohanpaul_ai@rohanpaul_ai
精选
有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型,速度超过4 tokens/sec。Kimi K2.5是混合专家模型,总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分,专家权重存储在Optane PMem中,192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多,但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置,实现混合GPU/CPU推理。
AI模型Kimi K2.5混合专家模型推理模型开源/仓库大模型

推荐理由:用旧硬件跑万亿模型,省钱又酷
原文
精选全部日报登录