Qwen3.6 MTP GGUF 发布:27B 模型单 GPU 达 140 tokens/s

我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前…

精选理由

本地大模型性能天花板被再次抬高,玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上,体验 30B+ 模型在消费级显卡上的流畅速度。

AI 摘要

UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本,通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s,35B-A3B 版本更达 220 tokens/s,比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2,过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限,让消费级显卡能更高效运行 30B+ 参数模型。

AI 翻译 · 中文

UnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本,通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s,35B-A3B 版本更达 220 tokens/s,比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2,过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限,让消费级显卡能更高效运行 30B+ 参数模型。

berryxia我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛,冲到220 tokens/s。 比原版GGUF快超过1.4倍,精度零损失。 他们测了半天,发现draft tokens设成2就是甜点,再往上接受率暴跌,实际速度反而掉下去。 我看完那张be