近期,围绕“预测”这一关键词,最引人关注的是多 token 预测(MTP)技术在本地大语言模型推理上的突破。该技术通过让模型同时预测多个后续 token,显著提升了生成速度。背景上,此前 LLM 的推理瓶颈主要在于逐 token 生成的低效,MTP 则试图并行化这一过程。
多条报道显示 MTP 已从理论走向实践:llama.cpp 项目正式加入 MTP 支持,使本地模型速度提升 78%(Clement Delangue);基于 MTP 的 Atomic Chat 让 Qwen 模型在对话场景下提速 2.5 倍(@atomic_chat_hq);另有实测显示,Qwen 27B 在 Atomic Chat 上从 51 token/s 跃升至 117 token/s(rohanpaul_ai)。这些数据表明 MTP 在保持模型质量的同时,可大幅改善响应延迟。
此外,OpenAI 也在探索预测的更深层应用:其博客介绍了时序分割模型(Temporal Segment Models),将预测与强化学习结合,用于复杂控制任务(OpenAI Blog),展示预测技术从语言模型向决策系统的溢出。
当前焦点在于 MTP 的通用性:它能否被主流推理框架广泛集成,以及在长上下文或低算力设备上的表现。未来观察点包括:MTP 是否会改变模型架构设计(如投机解码与多token预训练的融合),以及预测能力如何从语言生成延伸到规划、搜索等更广泛的 AI 系统。