精选理由
大模型量化部署的团队终于有了一个理论扎实的尺度优化方法——PiSO 在低位宽下效果尤其显著,做模型压缩的开发者可以直接参考论文中的算法实现。
后训练量化(PTQ)通过将权重映射到低位表示来压缩大语言模型,但量化网格的缩放因子通常使用简单的无数据启发式方法选择。本文提出 PiSO(分段尺度优化)算法,利用校准数据在四舍五入量化下精确高效地计算最优通道级权重尺度。PiSO 将尺度搜索空间划分为有限区间,每个区间上目标函数有闭式解。实验表明,在 Llama 和 Qwen 模型上,PiSO 在困惑度和下游零样本准确率上均有一致提升,且位宽越窄收益越明显。
AI 翻译 · 中文
后训练量化(PTQ)通过将权重映射到低位表示来压缩大语言模型,但量化网格的缩放因子通常使用简单的无数据启发式方法选择。本文提出 PiSO(分段尺度优化)算法,利用校准数据在四舍五入量化下精确高效地计算最优通道级权重尺度。PiSO 将尺度搜索空间划分为有限区间,每个区间上目标函数有闭式解。实验表明,在 Llama 和 Qwen 模型上,PiSO 在困惑度和下游零样本准确率上均有一致提升,且位宽越窄收益越明显。
Post-training quantization (PTQ) compresses large language models by mapping weights to low-bit representations. The scaling factor that defines the quantization grid is typically chosen using simple, data-free heuristic…