multitoken·general

Multi-Token

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
13
§ 01综述

Multi-Token Prediction (MTP) 是一种新兴的推理加速技术,其核心思想是让模型在每一步同时预测多个未来 token,而非传统的逐个预测。近期,该技术在本地大模型部署中取得了突破性进展。

  • llama.cpp 集成 MTP,速度提升显著:llama.cpp 项目正式加入 MTP 支持,实测显示本地模型推理速度提升高达 78%。这意味着在消费级硬件上运行大模型将更加流畅。llama.cpp 加入 MTP 支持
  • Qwen 模型在 Atomic Chat 中提速 2.5 倍:Atomic Chat 平台通过引入 MTP 技术,使 Qwen 系列模型的推理速度提升至原来的 2.5 倍,大幅降低了延迟,改善了实时对话体验。MTP 技术让 Qwen 在 Atomic Chat 中提速 2.5 倍
  • 本地 Qwen 27B 模型达到 117 tokens/s:在 atomic.chat 应用中,采用 MTP 后的 Qwen 27B 模型在本地推理速度从 51 tokens/s 飙升至 117 tokens/s,性能翻倍,接近云端部署的水平。atomic.chat 演示数据
  • 当前焦点:MTP 的普及正从理论走向实践,但其对模型质量和内存开销的影响仍需进一步验证。未来观察点:MTP 是否会成为本地模型推理的标准配置?能否在不牺牲准确性的前提下持续提升速度?不同模型架构对 MTP 的适配程度也将是关键研究方向。

    § 02相关报道03 条在档
    1. 01
      llama.cpp 加入 MTP 支持,本地模型速度提升 78%
      Clement Delangue
    2. 02
      MTP 技术让 Qwen 在 Atomic Chat 中提速 2.5 倍
      @atomic_chat_hq
    3. 03
      atomic.chat 用 MTP 让本地 Qwen 27B 从 51 飙到 117 tokens/s
      rohanpaul_ai
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Multi-Token