ScaleSearch：搜索块浮点缩放因子，提升量化精度

精选理由

做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

AI 摘要

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

AI 翻译 · 中文

arXiv cs.LGQuantization has emerged as a standard technique for accelerating inference for generative models by enabling faster low-precision computations and reduced memory transfers. Recently, GPU accelerators have added first-cl…

阅读原文