AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:功耗优化×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月21日
11:25
11:25arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun
精选
PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。
论文LLM推理功耗优化混合专家模型vLLM能效

推荐理由:数据中心GPU能耗是AI部署的隐形杀手,PALS把功耗从硬约束变成可调参数,做LLM服务部署的团队可以直接在vLLM上集成,省电又保性能,值得一试。
原文
精选全部日报登录