13:04AK@_akhaliqSpenseGPT提出一种实用的一次性剪枝方法,在LLM推理中同时支持稀疏和密集通用矩阵乘法(GEMM)。该方法无需重新训练,仅通过一次剪枝即可大幅减少模型参数。实验表明,在保持模型精度的前提下,剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。论文SpenseGPT剪枝LLM推理GEMM模型压缩推荐理由:一次剪枝,推理快两倍原文