论文精选

PALS:面向MoE模型的功耗感知LLM服务系统

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

精选理由

数据中心GPU能耗是AI部署的隐形杀手,PALS把功耗从硬约束变成可调参数,做LLM服务部署的团队可以直接在vLLM上集成,省电又保性能,值得一试。

AI 摘要

PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。

AI 翻译 · 中文

PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。

arXiv cs.AILarge language model (LLM) inference has become a dominant workload in modern data centers, driving significant GPU utilization and energy consumption. While prior systems optimize throughput and latency by batching, sch