Qwen3.6 MTP GGUF 发布：27B 模型单 GPU 达 140 tokens/s

精选理由

本地大模型性能天花板被再次抬高，玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上，体验 30B+ 模型在消费级显卡上的流畅速度。

AI 摘要

UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本，通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s，35B-A3B 版本更达 220 tokens/s，比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2，过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限，让消费级显卡能更高效运行 30B+ 参数模型。

AI 翻译 · 中文

berryxia我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛，冲到220 tokens/s。比原版GGUF快超过1.4倍，精度零损失。他们测了半天，发现draft tokens设成2就是甜点，再往上接受率暴跌，实际速度反而掉下去。我看完那张be…

查看原推