全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:20

12:20

Tri Dao (FlashAttention)@tri_dao

精选

通过数学重写，研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM（通用矩阵乘法）加 epilogue（后处理）。这意味着只要提供几个优化好的基础原语，LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化，让高性能内核的编写门槛大幅降低。

论文 Transformer GEMM 内核优化 LLM 数学重写

推荐理由：对做模型推理优化和内核开发的团队来说，这揭示了 Transformer 的底层统一结构，可以直接用 LLM 生成高效代码，建议关注。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

23:53

23:53

AK@_akhaliq

精选

该研究提出GPU Forecasters方法，利用语言模型作为选择性替代来优化GPU内核的运行时性能。在300个内核基准测试中，该方法将预测准确率提升至92%，相比传统模型平均提速1.7倍。实验在NVIDIA A100 GPU上进行，验证了语言模型在运行时预测中的有效性。

论文 GPU Forecasters 语言模型内核优化基准测试 A100

推荐理由：用语言模型预测GPU内核性能，效率提升明显

5月21日

22:14

22:14

阿里通义 Qwen@Alibaba_Qwen

83°

阿里巴巴 Qwen 团队展示了一项令人瞩目的成果：模型在约 35 小时的连续自主执行中，独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel，最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力，无需人类干预即可完成复杂系统级任务。

AI模型 Qwen 自主进化内核优化 AI 编程性能加速

推荐理由：这是 AI 自主编程能力的里程碑——模型不再只是写代码，而是能像资深工程师一样分析、调优、迭代。做 AI 系统优化或关注模型自主性的开发者，值得仔细看看这个案例。