17:21marktechpost@Asif Razzaq精选Flash-KMeans是一个开源的、IO感知的精确K-Means实现,使用Triton GPU内核,不改变Lloyd算法数学或做近似。其FlashAssign组件消除了距离矩阵的物化,Sort-Inverse Update消除了原子竞争。在NVIDIA H200上,它实现了17.9倍端到端加速,比cuML快33倍,比FAISS快200倍以上。该算法在大规模聚类任务中显著降低内存开销和计算延迟。AI模型Flash-KMeansFAISScuMLNVIDIA H200Triton聚类算法GPU加速8 个信源在谈推荐理由:开源Flash-KMeans在H200上比FAISS快200多倍,做精确k-means不近似,适合大规模数据聚类。原文
08:51IT之家(博客/媒体)精选华为鸿蒙开发团队开源了 SimpleGPULayer (SGL) 高性能 GPU 加速框架,面向鸿蒙原生应用提供图像处理、AI 推理、2D/3D 渲染等加速能力。该框架将复杂的 GPU 管线封装为简洁 API,开发者无需处理底层细节,仅需数行代码即可接入 GPU 加速。目前已在悟空图像等应用中落地,运行稳定。SGL 提供 C API 和 NAPI 接口,可轻松集成到鸿蒙应用中,大幅降低开发门槛。AI产品华为鸿蒙GPU加速开源/仓库图像处理推荐理由:鸿蒙开发者终于有了开箱即用的 GPU 加速方案,做相册、修图、AI 创作等图形密集型应用的团队,三行代码就能调用 GPU 滤镜,建议直接试。原文