Unsloth将GLM-5.2压缩至1-bit并在M3 Ultra上以21 tok/s运行，创意输出可比Claude Opus

精选理由

Unsloth把GLM-5.2压到1-bit，Mac Studio上跑21 tok/s，创意性居然不输Claude Opus，本地部署党有福了。

AI 摘要

Unsloth团队将GLM-5.2模型压缩至1-bit量化版本，在Mac Studio M3 Ultra（256GB RAM）上实现约21 tok/s的推理速度。该量化模型在创意输出任务（如HTML/设计生成）上，能与Claude Opus和GPT-5.5正面对比且不落下风。这显示极端量化后的大模型仍能保留较强表现，展示了开源模型通过优化缩小与闭源前沿模型在实际可用性上的差距。

AI 翻译 · 中文

berryxia这下让真的可以让很多人都闭嘴了！ Unsloth把GLM-5.2压缩到1-bit后。本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本，速度还能到21 tok/s左右。在同一个prompt下生成的HTML/设计效果，看起来甚至比闭源模型更丰富、更“有想法”。这已经不是简单的量化了，而是把一个原本需要海量显存的超大模型，硬生生塞…

查看原推