Transformer 本质是 GEMM + epilogue，LLM 可写光速内核

精选理由

对做模型推理优化和内核开发的团队来说，这揭示了 Transformer 的底层统一结构，可以直接用 LLM 生成高效代码，建议关注。

AI 摘要

通过数学重写，研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM（通用矩阵乘法）加 epilogue（后处理）。这意味着只要提供几个优化好的基础原语，LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化，让高性能内核的编写门槛大幅降低。

AI 翻译 · 中文

Tri Dao (FlashAttention)After some mathematical rewrite, turns out all of transformer is a series of gemm + epilogue. Given a few optimized primitives, LLMs (and novice humans) can write speed-of-light kernels for all transformer ops!

查看原推