13:04AK@_akhaliqSpenseGPT提出一种实用的一次性剪枝方法,在LLM推理中同时支持稀疏和密集通用矩阵乘法(GEMM)。该方法无需重新训练,仅通过一次剪枝即可大幅减少模型参数。实验表明,在保持模型精度的前提下,剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。论文SpenseGPT剪枝LLM推理GEMM模型压缩推荐理由:一次剪枝,推理快两倍原文
12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文