17:21marktechpost@Asif Razzaq精选Flash-KMeans是一个开源的、IO感知的精确K-Means实现,使用Triton GPU内核,不改变Lloyd算法数学或做近似。其FlashAssign组件消除了距离矩阵的物化,Sort-Inverse Update消除了原子竞争。在NVIDIA H200上,它实现了17.9倍端到端加速,比cuML快33倍,比FAISS快200倍以上。该算法在大规模聚类任务中显著降低内存开销和计算延迟。AI模型Flash-KMeansFAISScuMLNVIDIA H200Triton聚类算法GPU加速8 个信源在谈推荐理由:开源Flash-KMeans在H200上比FAISS快200多倍,做精确k-means不近似,适合大规模数据聚类。原文
13:12MiniMax_AI@MiniMax_AIMiniMax 宣布其 M3 模型端点获得 NVIDIA 官方认可,并已上线免费 GPU 加速版本。用户现在可以免费体验基于 NVIDIA GPU 加速的 M3 模型推理服务。该端点支持高性能计算,适用于多种 AI 任务。AI产品MiniMaxM3NVIDIAGPU加速3 个信源在谈推荐理由:MiniMax 的 M3 模型免费加速了原文
09:21arXiv cs.LG@Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo精选Flash-GMM 是一个融合的 Triton 内核,用于在单次 GPU 传递中高效计算高斯混合模型(GMM)。它通过避免在 GPU 内存中实例化完整的责任矩阵,实现了比现有实现快 20 倍的加速,并支持在单个设备上训练比以往大 100 倍以上的数据集。该内核被集成到 IVF 粗量化器中用于近似最近邻搜索,表明软 GMM 聚类可以替代 k-means,并利用 GMM 责任将边界向量分配到多个簇。在达到固定召回率目标时,Flash-GMM 减少了最多 1.7 倍的距离计算,或在相同计算成本下召回率提升 2-12 个点。该项目已开源。论文GMMGPU加速聚类近似最近邻搜索开源推荐理由:做大规模聚类或近似最近邻搜索的团队,Flash-GMM 让你在单卡上处理百倍数据量,速度还快 20 倍,直接替换 k-means 就能提升召回率,值得一试。原文
14:33阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持,包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型,无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化,能充分利用 GPU 硬件性能,降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号,表明 Step 3.7 Flash 已具备企业级部署条件。AI模型Step 3.7 FlashNVIDIANIMNeMoGPU加速5 个信源在谈推荐理由:NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境,做推理部署的团队可以省去适配工作,直接使用 NIM 和 NeMo 加速。原文
08:51IT之家(博客/媒体)精选华为鸿蒙开发团队开源了 SimpleGPULayer (SGL) 高性能 GPU 加速框架,面向鸿蒙原生应用提供图像处理、AI 推理、2D/3D 渲染等加速能力。该框架将复杂的 GPU 管线封装为简洁 API,开发者无需处理底层细节,仅需数行代码即可接入 GPU 加速。目前已在悟空图像等应用中落地,运行稳定。SGL 提供 C API 和 NAPI 接口,可轻松集成到鸿蒙应用中,大幅降低开发门槛。AI产品华为鸿蒙GPU加速开源/仓库图像处理推荐理由:鸿蒙开发者终于有了开箱即用的 GPU 加速方案,做相册、修图、AI 创作等图形密集型应用的团队,三行代码就能调用 GPU 滤镜,建议直接试。原文
13:12NVIDIA AI@NVIDIAAINVIDIA AI 官方账号宣布,基于 DGX Spark 的 Stelline 开发者套件已开始向科学家发货。该套件由 Luigi Cruz 团队开发,旨在将 GPU 加速信号处理引入射电天文学领域,使研究人员能在本地开发计算和网络能力,再部署到天文台。首批设备已交付给科学家,标志着 GPU 加速信号处理在射电天文学中的实际应用迈出重要一步。AI产品NVIDIAGPU加速射电天文学Stelline开发套件信号处理推荐理由:射电天文学研究者终于有了专用的 GPU 加速开发平台,Stelline 套件让本地开发到天文台部署的流程更顺畅,做信号处理或天文计算的团队值得关注。原文
11:24arXiv: Google DeepMind@Juho Kim, Tuomas Sandholm精选这篇论文提出了一种将反事实遗憾最小化(CFR)算法并行化的通用框架,通过将CFR重新表述为一系列线性代数运算,从而利用现有的并行线性代数技术加速。实验表明,在GPU上实现的CFR比Google DeepMind的OpenSpiel库在CPU上的实现快高达四个数量级。该框架还适用于CFR+、折扣CFR和预测变体等最先进的表格型CFR算法。这项工作填补了并行化在博弈求解领域应用的空白,有望大幅加速大型不完美信息博弈的求解。论文博弈求解并行计算GPU加速CFR算法不完美信息博弈推荐理由:博弈论和AI研究者终于有了加速CFR的实用方案——GPU并行化让求解速度提升万倍,做不完美信息博弈的团队可以直接用这个框架改造现有算法。原文