全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

16:45

16:45

marktechpost@Sana Hassan

本教程介绍了 NVIDIA cuTile Python，一个基于分块的 GPU 编程接口，允许在 Python 中编写类 CUDA 的内核。教程在 Google Colab 环境中逐步实现向量加法、矩阵加法和矩阵乘法的分块内核，并包含 PyTorch 回退以确保可执行性。每个阶段都通过 PyTorch 验证正确性并基准测试中位运行时间。该教程适合希望学习 GPU 编程但不想深入 CUDA C++ 的 Python 开发者。

技巧 GPU 编程 NVIDIA cuTile Python 教程 Colab 分块内核

推荐理由：想学 GPU 编程但被 CUDA C++ 劝退的 Python 开发者，这个教程让你直接在 Colab 里跑分块内核，还能对比 PyTorch 验证结果，值得动手试试。

5月29日

07:20

07:20

rohanpaul_ai@rohanpaul_ai

76°

Kog@AI 在 8×AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，8×NVIDIA H200 上为 2100 tokens/s（FP16，无推测解码），远超高端 GPU 通常的 100-300 tokens/s。他们将 LLM 解码视为内存流问题，通过将整个 token 生成循环保留在单个持久 GPU 程序中，消除了内核启动、CPU 调度和中间内存写入的开销。同时，通过让每个计算单元只等待所需数据，并针对 MI300X 的芯片拓扑优化内存访问，减少了同步浪费。模型架构延迟了张量并行通信，使 all-reduce 在后台进行而不阻塞每一层，这要求运行时、GPU 代码和模型设计协同优化。这一突破展示了通过软硬件协同设计大幅提升推理效率的潜力。

AI模型推理优化 AMD MI300X NVIDIA H200 内存流 GPU 编程

推荐理由：Kog@AI 把推理速度从 300 拉到 3000 tokens/s，做模型部署和推理优化的团队值得研究他们的内存流方法，直接看原文能学到如何消除 GPU 瓶颈。