精选理由
做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法,建议做低精度部署的开发者试试。
量化是加速生成模型推理的标准技术,但传统块浮点(BFP)格式使用基于块最大幅度的固定缩放因子,可能导致量化误差次优。本文提出ScaleSearch方法,通过细粒度搜索利用微缩放格式的尾数位,最小化量化误差。ScaleSearch可集成于后训练量化(PTQ)和低精度注意力机制,实验显示NVFP4量化误差降低27%,Qwen3-8B在MATH500上PTQ提升15点。此外,ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点,几乎无性能损失。
AI 翻译 · 中文
量化是加速生成模型推理的标准技术,但传统块浮点(BFP)格式使用基于块最大幅度的固定缩放因子,可能导致量化误差次优。本文提出ScaleSearch方法,通过细粒度搜索利用微缩放格式的尾数位,最小化量化误差。ScaleSearch可集成于后训练量化(PTQ)和低精度注意力机制,实验显示NVFP4量化误差降低27%,Qwen3-8B在MATH500上PTQ提升15点。此外,ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点,几乎无性能损失。
Quantization has emerged as a standard technique for accelerating inference for generative models by enabling faster low-precision computations and reduced memory transfers. Recently, GPU accelerators have added first-cl…