12:19Tri Dao (FlashAttention)@tri_dao精选一位开发者宣布,快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写,因此一旦为 Blackwell 消费级显卡实现了主循环,所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器,无需依赖专业硬件。AI模型muon优化器消费级显卡Blackwell矩阵乘法开源/仓库推荐理由:这个优化器让消费级显卡也能跑出专业级训练性能,做模型微调或自训练的开发者可以直接关注,省下买高端硬件的钱。原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 DeepGEMM,一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM,性能优异,在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译(JIT)方式,核心代码仅约 300 行,但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队,这是一个可以直接集成的高效工具。AI产品DeepGEMMFP8矩阵乘法开源/仓库高性能计算推荐理由:DeepGEMM 解决了 FP8 矩阵乘法的性能瓶颈,做大规模模型训练或推理的团队可以直接集成,获得接近理论峰值的算力利用率,值得一试。原文
12:33DeepSeek: GitHub 新仓库(资讯)精选DeepGEMM 是 DeepSeek 开源的矩阵乘法库。近期其 GitHub 仓库 commit activity 显示开发持续活跃。项目团队进行了多项代码优化和问题修复。开发者可以关注仓库以获取最新进展。AI模型DeepGEMMDeepSeek矩阵乘法开源库推荐理由:DeepGEMM 又在更新了原文