WattGPU：预测未见过GPU和LLM的推理功耗与延迟

精选理由

想省电又怕买错GPU？WattGPU用公开数据就能预测新GPU和新LLM的功耗和速度，不用自己跑实验，误差才几个点。

AI 摘要

WattGPU提出了两个预测模型，分别用于平均GPU功耗和令牌间延迟（ITL），仅利用公开的LLM元数据和GPU规格，无需硬件访问或预配置。在42个开源LLM（0.1B-27B参数）和8个GPU的数据集上，通过留一GPU和留一LLM交叉验证，功耗模型在离线场景下中位数绝对百分比误差≤3.4%，服务器场景下≤13.5%；延迟模型在服务器模式下≤8.5%，且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率（TDP）和基于延迟的roofline基线相比，WattGPU在未见过LLM-GPU组合上误差降低约4倍，在完全未见过GPU上降低约2倍。

AI 翻译 · 中文

arXiv cs.LGLarge Language Model (LLM) inference workloads are a rapidly growing contributor to data center energy consumption. Optimizing these deployments requires matching specific LLMs to the most efficient GPUs, but operators c…

阅读原文