19:12
arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa 量化是加速生成模型推理的标准技术,但传统块浮点(BFP)格式使用基于块最大幅度的固定缩放因子,可能导致量化误差次优。本文提出ScaleSearch方法,通过细粒度搜索利用微缩放格式的尾数位,最小化量化误差。ScaleSearch可集成于后训练量化(PTQ)和低精度注意力机制,实验显示NVFP4量化误差降低27%,Qwen3-8B在MATH500上PTQ提升15点。此外,ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点,几乎无性能损失。
推荐理由:做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法,建议做低精度部署的开发者试试。