全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

17:21

17:21

marktechpost@Asif Razzaq

精选

Flash-KMeans是一个开源的、IO感知的精确K-Means实现，使用Triton GPU内核，不改变Lloyd算法数学或做近似。其FlashAssign组件消除了距离矩阵的物化，Sort-Inverse Update消除了原子竞争。在NVIDIA H200上，它实现了17.9倍端到端加速，比cuML快33倍，比FAISS快200倍以上。该算法在大规模聚类任务中显著降低内存开销和计算延迟。

AI模型 Flash-KMeans FAISS cuML NVIDIA H200 Triton 聚类算法 GPU加速

推荐理由：开源Flash-KMeans在H200上比FAISS快200多倍，做精确k-means不近似，适合大规模数据聚类。

6月13日

13:12

13:12

MiniMax_AI@MiniMax_AI

MiniMax 宣布其 M3 模型端点获得 NVIDIA 官方认可，并已上线免费 GPU 加速版本。用户现在可以免费体验基于 NVIDIA GPU 加速的 M3 模型推理服务。该端点支持高性能计算，适用于多种 AI 任务。

AI产品 MiniMax M3 NVIDIA GPU加速

推荐理由：MiniMax 的 M3 模型免费加速了

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:21

09:21

arXiv cs.LG@Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo

精选

Flash-GMM 是一个融合的 Triton 内核，用于在单次 GPU 传递中高效计算高斯混合模型（GMM）。它通过避免在 GPU 内存中实例化完整的责任矩阵，实现了比现有实现快 20 倍的加速，并支持在单个设备上训练比以往大 100 倍以上的数据集。该内核被集成到 IVF 粗量化器中用于近似最近邻搜索，表明软 GMM 聚类可以替代 k-means，并利用 GMM 责任将边界向量分配到多个簇。在达到固定召回率目标时，Flash-GMM 减少了最多 1.7 倍的距离计算，或在相同计算成本下召回率提升 2-12 个点。该项目已开源。

论文 GMM GPU加速聚类近似最近邻搜索开源

推荐理由：做大规模聚类或近似最近邻搜索的团队，Flash-GMM 让你在单卡上处理百倍数据量，速度还快 20 倍，直接替换 k-means 就能提升召回率，值得一试。

5月29日

14:33

14:33

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持，包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型，无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化，能充分利用 GPU 硬件性能，降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号，表明 Step 3.7 Flash 已具备企业级部署条件。

AI模型 Step 3.7 Flash NVIDIA NIM NeMo GPU加速

推荐理由：NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境，做推理部署的团队可以省去适配工作，直接使用 NIM 和 NeMo 加速。

08:51

08:51IT之家（博客/媒体）

精选

华为鸿蒙开发团队开源了 SimpleGPULayer (SGL) 高性能 GPU 加速框架，面向鸿蒙原生应用提供图像处理、AI 推理、2D/3D 渲染等加速能力。该框架将复杂的 GPU 管线封装为简洁 API，开发者无需处理底层细节，仅需数行代码即可接入 GPU 加速。目前已在悟空图像等应用中落地，运行稳定。SGL 提供 C API 和 NAPI 接口，可轻松集成到鸿蒙应用中，大幅降低开发门槛。

AI产品华为鸿蒙 GPU加速开源/仓库图像处理

推荐理由：鸿蒙开发者终于有了开箱即用的 GPU 加速方案，做相册、修图、AI 创作等图形密集型应用的团队，三行代码就能调用 GPU 滤镜，建议直接试。

5月16日

13:12

13:12

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号宣布，基于 DGX Spark 的 Stelline 开发者套件已开始向科学家发货。该套件由 Luigi Cruz 团队开发，旨在将 GPU 加速信号处理引入射电天文学领域，使研究人员能在本地开发计算和网络能力，再部署到天文台。首批设备已交付给科学家，标志着 GPU 加速信号处理在射电天文学中的实际应用迈出重要一步。

AI产品 NVIDIA GPU加速射电天文学 Stelline开发套件信号处理

推荐理由：射电天文学研究者终于有了专用的 GPU 加速开发平台，Stelline 套件让本地开发到天文台部署的流程更顺畅，做信号处理或天文计算的团队值得关注。

5月15日

11:24

11:24

arXiv: Google DeepMind@Juho Kim, Tuomas Sandholm

精选

这篇论文提出了一种将反事实遗憾最小化（CFR）算法并行化的通用框架，通过将CFR重新表述为一系列线性代数运算，从而利用现有的并行线性代数技术加速。实验表明，在GPU上实现的CFR比Google DeepMind的OpenSpiel库在CPU上的实现快高达四个数量级。该框架还适用于CFR+、折扣CFR和预测变体等最先进的表格型CFR算法。这项工作填补了并行化在博弈求解领域应用的空白，有望大幅加速大型不完美信息博弈的求解。

论文博弈求解并行计算 GPU加速 CFR算法不完美信息博弈

推荐理由：博弈论和AI研究者终于有了加速CFR的实用方案——GPU并行化让求解速度提升万倍，做不完美信息博弈的团队可以直接用这个框架改造现有算法。