全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月21日

11:25

11:25

arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

精选

PALS是一个针对大语言模型推理的功耗感知运行时系统，将GPU功耗上限作为可调控制参数，与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器，在满足吞吐量目标的同时最大化能效。在vLLM框架中实现，无需模型重训练或API更改。在多GPU系统上，针对稠密和混合专家模型，PALS能效提升最高26.3%，功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力，可实现能效比例和电网交互式AI系统。

论文 LLM推理功耗优化混合专家模型 vLLM 能效

推荐理由：数据中心GPU能耗是AI部署的隐形杀手，PALS把功耗从硬约束变成可调参数，做LLM服务部署的团队可以直接在vLLM上集成，省电又保性能，值得一试。