llm推理·general

LLM推理

别名
首次出现
2026-05-22
最近出现
2026-06-08
累计提及
14
§ 01综述

LLM推理领域近期呈现出系统优化与算法创新并进的态势。背景上,随着大规模语言模型部署日益普及,推理效率、延迟和资源消耗成为关键瓶颈,研究重点正从单纯追求模型性能转向实用化部署的优化。

    近期主要进展包括:
  • 调度与资源虚拟化:Clairvoyant提出预测式SJF调度,缓解串行LLM后端的队头阻塞问题,通过预判任务执行时间优化队列顺序 (Clairvoyant)。FlexNPU则实现透明NPU虚拟化,动态共置Prefill和Decode阶段,提升硬件利用率 (FlexNPU)。
  • 推理算法和模型优化:EAGLE 3.1修复了推测解码中的注意力漂移,提升了生成质量 (EAGLE 3.1)。LinTree通过显式结构化搜索历史增强复杂推理能力 (LinTree)。CDG投票利用置信度动态优化,提高多步推理准确率 (CDG)。Attention-State Memory提出无训练方法扩展长上下文生成 (Attention-State)。
  • 框架与隐私保护:DeepLearning.AI联合RedHat推出vLLM推理优化课程,推动标准化部署 (vLLM课程)。SharedRequest提出隐私保护模型无关推理框架 (SharedRequest)。PALS面向MoE模型实现功耗感知服务系统 (PALS)。

当前焦点在于如何在低延迟、高吞吐和隐私保护之间取得平衡,未来需关注跨层级协同优化(如模型设计、系统调度和硬件加速)以及长上下文推理的实用性突破。

§ 02相关报道10 条在档
  1. 01
    Clairvoyant:预测式SJF调度缓解串行LLM后端队头阻塞
    arXiv: OpenAI
  2. 02
    DeepLearning.AI 联合 RedHat 推出 vLLM 推理优化课程
    DeepLearning.AI
  3. 03
    SharedRequest:保护隐私的模型无关LLM推理框架
    arXiv cs.AI
  4. 04
    FlexNPU:为LLM动态Prefill-Decode共置的透明NPU虚拟化
    arXiv: DeepSeek
  5. 05
    斯坦福AI Lab在ICLR 2026发布论文列表,涵盖LLM推理、智能体等
    Stanford AI Lab
  6. 06
    LinTree:通过显式结构化搜索历史提升LLM推理能力
    arXiv cs.AI
  7. 07
    EAGLE 3.1 发布:修复 LLM 推理中的注意力漂移问题
    marktechpost
  8. 08
    置信度动态优化推理:CDG 投票提升 LLM 推理准确率
    arXiv: DeepSeek
  9. 09
    PALS:面向MoE模型的功耗感知LLM服务系统
    arXiv cs.AI
  10. 10
    Attention-State Memory:无训练长上下文生成新方法
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/LLM%E6%8E%A8%E7%90%86