精选理由
Unsloth把1万亿参数的Kimi K2.7 Code压到325GB本地能跑,速度40+ tok/s,长程推理和agent工作流全闭环,开源社区终于能自己跑了。
Unsloth团队用Dynamic 2-bit方案将1万亿参数的Kimi K2.7 Code模型压缩48%,重要层保留更高精度。量化后模型仅需325GB RAM/VRAM即可本地运行,推理速度达40+ tok/s。全精度版本需要610GB显存。该优化并非粗暴量化,而是保留了模型的推理效率,尤其适合长程任务、复杂推理和agent工作流。
AI 翻译 · 中文
Unsloth团队用Dynamic 2-bit方案将1万亿参数的Kimi K2.7 Code模型压缩48%,重要层保留更高精度。量化后模型仅需325GB RAM/VRAM即可本地运行,推理速度达40+ tok/s。全精度版本需要610GB显存。该优化并非粗暴量化,而是保留了模型的推理效率,尤其适合长程任务、复杂推理和agent工作流。
1万亿参数的Kimi K2.7 Code,现在直接被Unsloth塞进了本地能跑,动态2bit量化后只剩325GB,还能跑到40+ tok/s。 Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%,重要层保持更高精度,其他部分大胆量化。 结果就是330GB的RAM/VRAM就能跑起来,速度还不错。想全精度也可以,但需要610GB。 以前大家觉得这么大的coding模型只能云端用,或者根本跑不动,现在开源社区直接把前沿…