论文精选72°

推理扩展瓶颈:LLM 推理从计算受限转向容量受限

Understanding Inference Scaling for LLMs: Bottlenecks, Trade-offs, and Performance Principles

精选理由

这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。

AI 摘要

本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。

AI 翻译 · 中文

本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。

arXiv: DeepSeekThe transition from standard generative AI to \emph{reasoning-centric architectures}, exemplified by models capable of extensive Chain-of-Thought~(CoT) processing, marks a fundamental paradigm shift in system requirement