09:02rohanpaul_ai@rohanpaul_ai精选在本地运行LLM的桌面应用atomic[.]chat上,Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中,Nemotron 3 Ultra以11.3k tokens、0.051美元的成本,给出了与GPT-5.5(11.0k tokens、0.57美元)几乎相同的结果,成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型,拥有5500亿总参数,但每个token仅激活55亿参数,因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势,尤其适合需要高推理质量但预算有限的场景。AI模型Nemotron 3 UltraGPT-5.5混合专家模型成本对比本地推理10 个信源在谈推荐理由:做AI应用或本地推理的开发者,这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果,值得在项目里试试。原文
11:13AK@_akhaliq精选dMoE 是一种新型动态混合专家(Mixture of Experts)架构,通过引入可学习的块专家(Learnable Block Experts)来替代传统固定专家。该方法允许模型根据输入动态调整专家组合,提升效率和性能。实验表明,dMoE 在多个基准测试上优于标准 MoE 和密集模型,同时计算成本更低。该工作由研究团队在 Twitter 上公开,引发了社区关注。论文dMoE混合专家模型动态架构高效推理论文推荐理由:dMoE 解决了传统 MoE 专家固定、效率低的问题,做模型压缩和高效推理的团队值得关注,可以尝试复现或集成到自己的工作中。原文
05:02rohanpaul_ai@rohanpaul_ai88°微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。AI模型推理模型微软MAI-Thinking-1混合专家模型强化学习推荐理由:微软用自研数据+强化学习打造了强推理模型,做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论,尤其是 35B 激活参数就能达到接近顶尖水平的效率。原文
14:44rohanpaul_ai@rohanpaul_ai精选有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型,速度超过4 tokens/sec。Kimi K2.5是混合专家模型,总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分,专家权重存储在Optane PMem中,192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多,但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置,实现混合GPU/CPU推理。AI模型Kimi K2.5混合专家模型推理模型开源/仓库大模型推荐理由:用旧硬件跑万亿模型,省钱又酷原文