全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

09:02

09:02

rohanpaul_ai@rohanpaul_ai

精选

在本地运行LLM的桌面应用atomic[.]chat上，Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中，Nemotron 3 Ultra以11.3k tokens、0.051美元的成本，给出了与GPT-5.5（11.0k tokens、0.57美元）几乎相同的结果，成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型，拥有5500亿总参数，但每个token仅激活55亿参数，因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势，尤其适合需要高推理质量但预算有限的场景。

AI模型 Nemotron 3 Ultra GPT-5.5 混合专家模型成本对比本地推理

推荐理由：做AI应用或本地推理的开发者，这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果，值得在项目里试试。

6月4日

11:13

11:13

AK@_akhaliq

精选

dMoE 是一种新型动态混合专家（Mixture of Experts）架构，通过引入可学习的块专家（Learnable Block Experts）来替代传统固定专家。该方法允许模型根据输入动态调整专家组合，提升效率和性能。实验表明，dMoE 在多个基准测试上优于标准 MoE 和密集模型，同时计算成本更低。该工作由研究团队在 Twitter 上公开，引发了社区关注。

论文 dMoE 混合专家模型动态架构高效推理论文

推荐理由：dMoE 解决了传统 MoE 专家固定、效率低的问题，做模型压缩和高效推理的团队值得关注，可以尝试复现或集成到自己的工作中。

6月3日

05:02

05:02

rohanpaul_ai@rohanpaul_ai

88°

微软发布了 MAI-Thinking-1，这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构，每次推理仅激活 35B 参数，在 AIME 2025 上达到 97.0%，LiveCodeBench v6 上 87.7%，SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”，通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token，避免使用第三方模型蒸馏，随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。

AI模型推理模型微软 MAI-Thinking-1 混合专家模型强化学习

推荐理由：微软用自研数据+强化学习打造了强推理模型，做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论，尤其是 35B 激活参数就能达到接近顶尖水平的效率。

5月24日

14:44

14:44

rohanpaul_ai@rohanpaul_ai

精选

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型，速度超过4 tokens/sec。Kimi K2.5是混合专家模型，总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分，专家权重存储在Optane PMem中，192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多，但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置，实现混合GPU/CPU推理。

AI模型 Kimi K2.5 混合专家模型推理模型开源/仓库大模型

推荐理由：用旧硬件跑万亿模型，省钱又酷