AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:加速×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
12:20
12:20Tri Dao (FlashAttention)@tri_dao
精选
WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。
AI模型MoE反向传播内存优化Blackwell加速

推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录