全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:20

09:20

arXiv cs.LG@Juan Amboage, Pablo Monteagudo-Lago, Ian Colbert, Giuseppe Franco, Nicholas Fraser

精选

后训练量化（PTQ）通过将权重映射到低位表示来压缩大语言模型，但量化网格的缩放因子通常使用简单的无数据启发式方法选择。本文提出 PiSO（分段尺度优化）算法，利用校准数据在四舍五入量化下精确高效地计算最优通道级权重尺度。PiSO 将尺度搜索空间划分为有限区间，每个区间上目标函数有闭式解。实验表明，在 Llama 和 Qwen 模型上，PiSO 在困惑度和下游零样本准确率上均有一致提升，且位宽越窄收益越明显。

论文后训练量化模型压缩大语言模型 PiSO Llama/Qwen

推荐理由：大模型量化部署的团队终于有了一个理论扎实的尺度优化方法——PiSO 在低位宽下效果尤其显著，做模型压缩的开发者可以直接参考论文中的算法实现。