12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文
23:53AK@_akhaliq精选该研究提出GPU Forecasters方法,利用语言模型作为选择性替代来优化GPU内核的运行时性能。在300个内核基准测试中,该方法将预测准确率提升至92%,相比传统模型平均提速1.7倍。实验在NVIDIA A100 GPU上进行,验证了语言模型在运行时预测中的有效性。论文GPU Forecasters语言模型内核优化基准测试A1003 个信源在谈推荐理由:用语言模型预测GPU内核性能,效率提升明显原文
22:14阿里通义 Qwen@Alibaba_Qwen83°阿里巴巴 Qwen 团队展示了一项令人瞩目的成果:模型在约 35 小时的连续自主执行中,独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel,最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力,无需人类干预即可完成复杂系统级任务。AI模型Qwen自主进化内核优化AI 编程性能加速推荐理由:这是 AI 自主编程能力的里程碑——模型不再只是写代码,而是能像资深工程师一样分析、调优、迭代。做 AI 系统优化或关注模型自主性的开发者,值得仔细看看这个案例。原文