WattGPU:预测未见过GPU和LLM的推理功耗与延迟

WattGPU: Predicting Inference Power and Latency on Unseen GPUs and LLMs

精选理由

想省电又怕买错GPU?WattGPU用公开数据就能预测新GPU和新LLM的功耗和速度,不用自己跑实验,误差才几个点。

AI 摘要

WattGPU提出了两个预测模型,分别用于平均GPU功耗和令牌间延迟(ITL),仅利用公开的LLM元数据和GPU规格,无需硬件访问或预配置。在42个开源LLM(0.1B-27B参数)和8个GPU的数据集上,通过留一GPU和留一LLM交叉验证,功耗模型在离线场景下中位数绝对百分比误差≤3.4%,服务器场景下≤13.5%;延迟模型在服务器模式下≤8.5%,且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率(TDP)和基于延迟的roofline基线相比,WattGPU在未见过LLM-GPU组合上误差降低约4倍,在完全未见过GPU上降低约2倍。

AI 翻译 · 中文

WattGPU提出了两个预测模型,分别用于平均GPU功耗和令牌间延迟(ITL),仅利用公开的LLM元数据和GPU规格,无需硬件访问或预配置。在42个开源LLM(0.1B-27B参数)和8个GPU的数据集上,通过留一GPU和留一LLM交叉验证,功耗模型在离线场景下中位数绝对百分比误差≤3.4%,服务器场景下≤13.5%;延迟模型在服务器模式下≤8.5%,且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率(TDP)和基于延迟的roofline基线相比,WattGPU在未见过LLM-GPU组合上误差降低约4倍,在完全未见过GPU上降低约2倍。

arXiv cs.LGLarge Language Model (LLM) inference workloads are a rapidly growing contributor to data center energy consumption. Optimizing these deployments requires matching specific LLMs to the most efficient GPUs, but operators c