AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:内核优化×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
12:20
12:20Tri Dao (FlashAttention)@tri_dao
精选
通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。
论文TransformerGEMM内核优化LLM数学重写

推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
23:53
23:53AK@_akhaliq
精选
该研究提出GPU Forecasters方法,利用语言模型作为选择性替代来优化GPU内核的运行时性能。在300个内核基准测试中,该方法将预测准确率提升至92%,相比传统模型平均提速1.7倍。实验在NVIDIA A100 GPU上进行,验证了语言模型在运行时预测中的有效性。
论文GPU Forecasters语言模型内核优化基准测试A100

推荐理由:用语言模型预测GPU内核性能,效率提升明显
原文
5月21日
22:14
22:14阿里通义 Qwen@Alibaba_Qwen
83°
阿里巴巴 Qwen 团队展示了一项令人瞩目的成果:模型在约 35 小时的连续自主执行中,独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel,最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力,无需人类干预即可完成复杂系统级任务。
AI模型Qwen自主进化内核优化AI 编程性能加速

推荐理由:这是 AI 自主编程能力的里程碑——模型不再只是写代码,而是能像资深工程师一样分析、调优、迭代。做 AI 系统优化或关注模型自主性的开发者,值得仔细看看这个案例。
原文
精选全部日报登录