SpenseGPT：一次性剪枝实现LLM推理的稀疏与密集GEMM

精选理由

一次剪枝，推理快两倍

AI 摘要

SpenseGPT提出一种实用的一次性剪枝方法，在LLM推理中同时支持稀疏和密集通用矩阵乘法（GEMM）。该方法无需重新训练，仅通过一次剪枝即可大幅减少模型参数。实验表明，在保持模型精度的前提下，剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。

AI 翻译 · 中文

AKSpenseGPT Practical One-shot Pruning Enabling Sparse and Dense GEMMs for LLM Inference 💬 2 🔄 0 ❤️ 2 👀 894 📊 2 ⚡ Powered by xgo.ing