精选理由
MoonMath 开源了一个注意力内核,能在 AMD MI300X 上全面碾压官方 AITER v3,速度更快,所有形状都更强,值得跑推理的人试试。
MoonMath AI 开源了一个基于 HIP 的注意力内核,针对 AMD MI300X GPU 进行了优化。该内核采用单指令汇编包装器和八波流水线架构,在所有形状和舍入模式下均击败了 AMD 官方实现的 AITER v3。基准测试结果显示,新内核在 MI300X 上的性能显著领先,未出现任何退化情况。
AI 翻译 · 中文
MoonMath AI 开源了一个基于 HIP 的注意力内核,针对 AMD MI300X GPU 进行了优化。该内核采用单指令汇编包装器和八波流水线架构,在所有形状和舍入模式下均击败了 AMD 官方实现的 AITER v3。基准测试结果显示,新内核在 MI300X 上的性能显著领先,未出现任何退化情况。
The HIP kernel uses one-instruction asm wrappers and an eight-wave pipeline to outperform AMD's AITER v3 on MI300X. The post MoonMath AI Open-Sources a HIP Attention Kernel for AMD MI300X That Beats AITER v3 on Every Sha…