Multi-Token

§ 01综述

Multi-Token Prediction (MTP) 是一种新兴的推理加速技术，其核心思想是让模型在每一步同时预测多个未来 token，而非传统的逐个预测。近期，该技术在本地大模型部署中取得了突破性进展。

llama.cpp 集成 MTP，速度提升显著：llama.cpp 项目正式加入 MTP 支持，实测显示本地模型推理速度提升高达 78%。这意味着在消费级硬件上运行大模型将更加流畅。llama.cpp 加入 MTP 支持

Qwen 模型在 Atomic Chat 中提速 2.5 倍：Atomic Chat 平台通过引入 MTP 技术，使 Qwen 系列模型的推理速度提升至原来的 2.5 倍，大幅降低了延迟，改善了实时对话体验。MTP 技术让 Qwen 在 Atomic Chat 中提速 2.5 倍

本地 Qwen 27B 模型达到 117 tokens/s：在 atomic.chat 应用中，采用 MTP 后的 Qwen 27B 模型在本地推理速度从 51 tokens/s 飙升至 117 tokens/s，性能翻倍，接近云端部署的水平。atomic.chat 演示数据

当前焦点：MTP 的普及正从理论走向实践，但其对模型质量和内存开销的影响仍需进一步验证。未来观察点：MTP 是否会成为本地模型推理的标准配置？能否在不牺牲准确性的前提下持续提升速度？不同模型架构对 MTP 的适配程度也将是关键研究方向。

§ 02相关报道03 条在档

§ 03邻近话题