LLM推理领域近期呈现出系统优化与算法创新并进的态势。背景上,随着大规模语言模型部署日益普及,推理效率、延迟和资源消耗成为关键瓶颈,研究重点正从单纯追求模型性能转向实用化部署的优化。
- 近期主要进展包括:
- 调度与资源虚拟化:Clairvoyant提出预测式SJF调度,缓解串行LLM后端的队头阻塞问题,通过预判任务执行时间优化队列顺序 (Clairvoyant)。FlexNPU则实现透明NPU虚拟化,动态共置Prefill和Decode阶段,提升硬件利用率 (FlexNPU)。
- 推理算法和模型优化:EAGLE 3.1修复了推测解码中的注意力漂移,提升了生成质量 (EAGLE 3.1)。LinTree通过显式结构化搜索历史增强复杂推理能力 (LinTree)。CDG投票利用置信度动态优化,提高多步推理准确率 (CDG)。Attention-State Memory提出无训练方法扩展长上下文生成 (Attention-State)。
- 框架与隐私保护:DeepLearning.AI联合RedHat推出vLLM推理优化课程,推动标准化部署 (vLLM课程)。SharedRequest提出隐私保护模型无关推理框架 (SharedRequest)。PALS面向MoE模型实现功耗感知服务系统 (PALS)。
当前焦点在于如何在低延迟、高吞吐和隐私保护之间取得平衡,未来需关注跨层级协同优化(如模型设计、系统调度和硬件加速)以及长上下文推理的实用性突破。