Unsloth将1万亿参数Kimi K2.7 Code动态2bit量化至325GB，本地跑40+ tok/s

精选理由

Unsloth把1万亿参数的Kimi K2.7 Code压到325GB本地能跑，速度40+ tok/s，长程推理和agent工作流全闭环，开源社区终于能自己跑了。

AI 摘要

Unsloth团队用Dynamic 2-bit方案将1万亿参数的Kimi K2.7 Code模型压缩48%，重要层保留更高精度。量化后模型仅需325GB RAM/VRAM即可本地运行，推理速度达40+ tok/s。全精度版本需要610GB显存。该优化并非粗暴量化，而是保留了模型的推理效率，尤其适合长程任务、复杂推理和agent工作流。

AI 翻译 · 中文

berryxia1万亿参数的Kimi K2.7 Code，现在直接被Unsloth塞进了本地能跑，动态2bit量化后只剩325GB，还能跑到40+ tok/s。 Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%，重要层保持更高精度，其他部分大胆量化。结果就是330GB的RAM/VRAM就能跑起来，速度还不错。想全精度也可以，但需要610GB。以前大家觉得这么大的coding模型只能云端用，或者根本跑不动，现在开源社区直接把前沿…

lmarena.ai06-17 19:11原文
ollama06-17 18:03原文
shao__meng06-18 00:58原文
IT之家06-15 14:06原文

查看原推