精选理由
想省电又怕买错GPU?WattGPU用公开数据就能预测新GPU和新LLM的功耗和速度,不用自己跑实验,误差才几个点。
WattGPU提出了两个预测模型,分别用于平均GPU功耗和令牌间延迟(ITL),仅利用公开的LLM元数据和GPU规格,无需硬件访问或预配置。在42个开源LLM(0.1B-27B参数)和8个GPU的数据集上,通过留一GPU和留一LLM交叉验证,功耗模型在离线场景下中位数绝对百分比误差≤3.4%,服务器场景下≤13.5%;延迟模型在服务器模式下≤8.5%,且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率(TDP)和基于延迟的roofline基线相比,WattGPU在未见过LLM-GPU组合上误差降低约4倍,在完全未见过GPU上降低约2倍。
AI 翻译 · 中文
WattGPU提出了两个预测模型,分别用于平均GPU功耗和令牌间延迟(ITL),仅利用公开的LLM元数据和GPU规格,无需硬件访问或预配置。在42个开源LLM(0.1B-27B参数)和8个GPU的数据集上,通过留一GPU和留一LLM交叉验证,功耗模型在离线场景下中位数绝对百分比误差≤3.4%,服务器场景下≤13.5%;延迟模型在服务器模式下≤8.5%,且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率(TDP)和基于延迟的roofline基线相比,WattGPU在未见过LLM-GPU组合上误差降低约4倍,在完全未见过GPU上降低约2倍。
Large Language Model (LLM) inference workloads are a rapidly growing contributor to data center energy consumption. Optimizing these deployments requires matching specific LLMs to the most efficient GPUs, but operators c…