LLM推理

§ 01综述

LLM推理领域近期呈现出系统优化与算法创新并进的态势。背景上，随着大规模语言模型部署日益普及，推理效率、延迟和资源消耗成为关键瓶颈，研究重点正从单纯追求模型性能转向实用化部署的优化。

调度与资源虚拟化：Clairvoyant提出预测式SJF调度，缓解串行LLM后端的队头阻塞问题，通过预判任务执行时间优化队列顺序 (Clairvoyant)。FlexNPU则实现透明NPU虚拟化，动态共置Prefill和Decode阶段，提升硬件利用率 (FlexNPU)。
推理算法和模型优化：EAGLE 3.1修复了推测解码中的注意力漂移，提升了生成质量 (EAGLE 3.1)。LinTree通过显式结构化搜索历史增强复杂推理能力 (LinTree)。CDG投票利用置信度动态优化，提高多步推理准确率 (CDG)。Attention-State Memory提出无训练方法扩展长上下文生成 (Attention-State)。
框架与隐私保护：DeepLearning.AI联合RedHat推出vLLM推理优化课程，推动标准化部署 (vLLM课程)。SharedRequest提出隐私保护模型无关推理框架 (SharedRequest)。PALS面向MoE模型实现功耗感知服务系统 (PALS)。

当前焦点在于如何在低延迟、高吞吐和隐私保护之间取得平衡，未来需关注跨层级协同优化（如模型设计、系统调度和硬件加速）以及长上下文推理的实用性突破。

§ 02相关报道10 条在档

§ 03邻近话题