全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:20

12:20

Tri Dao (FlashAttention)@tri_dao

精选

WentaoGuo7 提出了一种对混合专家模型（MoE）反向传播的数学重写方法，显著降低了激活内存占用，并大幅提升了训练速度，尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性（如2CTA MMA和CLC）来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义，能有效缓解内存瓶颈并加速迭代。

AI模型 MoE 反向传播内存优化 Blackwell 加速

推荐理由：做MoE模型训练和推理的开发者，这个数学重写能直接降低你的显存压力并加速训练，尤其适合细粒度MoE场景，建议试试Blackwell新特性带来的性能提升。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

20:02

20:02

AlphaSignal@AlphaSignalAI

88°

NVIDIA 与牛津大学联合发表论文，提出 EGGROLL 方法，将进化策略（Evolution Strategies）扩展到十亿参数模型，无需反向传播即可训练。该方法用两个低秩矩阵替代密集随机扰动矩阵，大幅降低内存消耗，达到纯推理吞吐量的 91%。EGGROLL 支持数十万并行变异，可与不可微分组件配合，在推理任务上与 GRPO 竞争。团队还训练了纯 8 位整数循环语言模型 EGG，非线性来自整数溢出裁剪，而非激活函数，预训练时种群规模超过百万。

论文进化策略反向传播 NVIDIA 低秩矩阵整数训练

推荐理由：这项研究打破了深度学习十年来的反向传播依赖，做大规模模型训练或非可微分任务（如强化学习、神经架构搜索）的团队可以直接关注 EGGROLL，它可能改变你构建模型的方式。