精选理由
这篇论文解决了 GPU 内核优化中评估成本高的痛点,做高性能计算或深度学习框架优化的开发者可以直接参考其方法——用 LLM 替代部分硬件测量,在相同预算下找到更优内核。
该论文研究如何利用大语言模型(LLM)作为 GPU 内核性能的预测器,以替代昂贵的实际硬件测量。在深度学习内核优化中,每次评估都需要编译和多次执行,成本高昂,而 LLM 驱动的搜索扩展后,设备端评估成为瓶颈。作者提出 LLM 应具备准确性和选择性——知道何时可能出错并转交 GPU。实验表明,LLM 能准确预测相对性能,通过强化学习可提升精度和置信度校准。在内核搜索中,替代模型在相同 GPU 预算下可评估数倍候选,从而找到更快的内核。这表明 LLM 可充当 GPU 的虚拟模型,而不仅是内核生成器。
AI 翻译 · 中文
该论文研究如何利用大语言模型(LLM)作为 GPU 内核性能的预测器,以替代昂贵的实际硬件测量。在深度学习内核优化中,每次评估都需要编译和多次执行,成本高昂,而 LLM 驱动的搜索扩展后,设备端评估成为瓶颈。作者提出 LLM 应具备准确性和选择性——知道何时可能出错并转交 GPU。实验表明,LLM 能准确预测相对性能,通过强化学习可提升精度和置信度校准。在内核搜索中,替代模型在相同 GPU 预算下可评估数倍候选,从而找到更快的内核。这表明 LLM 可充当 GPU 的虚拟模型,而不仅是内核生成器。
GPU kernels are the workhorse of modern deep learning, and optimizing them (via evolutionary search or coding agents) usually requires repeated measurement on target hardware. While these measurements provide the ground-…