精选 AI 资讯 · AI 热点

6月15日

17:21

17:21

marktechpost@Asif Razzaq

精选

Flash-KMeans是一个开源的、IO感知的精确K-Means实现，使用Triton GPU内核，不改变Lloyd算法数学或做近似。其FlashAssign组件消除了距离矩阵的物化，Sort-Inverse Update消除了原子竞争。在NVIDIA H200上，它实现了17.9倍端到端加速，比cuML快33倍，比FAISS快200倍以上。该算法在大规模聚类任务中显著降低内存开销和计算延迟。

AI模型 Flash-KMeans FAISS cuML NVIDIA H200 Triton 聚类算法 GPU加速

推荐理由：开源Flash-KMeans在H200上比FAISS快200多倍，做精确k-means不近似，适合大规模数据聚类。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:21

09:21

arXiv cs.LG@Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo

精选

Flash-GMM 是一个融合的 Triton 内核，用于在单次 GPU 传递中高效计算高斯混合模型（GMM）。它通过避免在 GPU 内存中实例化完整的责任矩阵，实现了比现有实现快 20 倍的加速，并支持在单个设备上训练比以往大 100 倍以上的数据集。该内核被集成到 IVF 粗量化器中用于近似最近邻搜索，表明软 GMM 聚类可以替代 k-means，并利用 GMM 责任将边界向量分配到多个簇。在达到固定召回率目标时，Flash-GMM 减少了最多 1.7 倍的距离计算，或在相同计算成本下召回率提升 2-12 个点。该项目已开源。

论文 GMM GPU加速聚类近似最近邻搜索开源

推荐理由：做大规模聚类或近似最近邻搜索的团队，Flash-GMM 让你在单卡上处理百倍数据量，速度还快 20 倍，直接替换 k-means 就能提升召回率，值得一试。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

14:33

14:33

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持，包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型，无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化，能充分利用 GPU 硬件性能，降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号，表明 Step 3.7 Flash 已具备企业级部署条件。

AI模型 Step 3.7 Flash NVIDIA NIM NeMo GPU加速

推荐理由：NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境，做推理部署的团队可以省去适配工作，直接使用 NIM 和 NeMo 加速。

08:51

08:51IT之家（博客/媒体）

精选

华为鸿蒙开发团队开源了 SimpleGPULayer (SGL) 高性能 GPU 加速框架，面向鸿蒙原生应用提供图像处理、AI 推理、2D/3D 渲染等加速能力。该框架将复杂的 GPU 管线封装为简洁 API，开发者无需处理底层细节，仅需数行代码即可接入 GPU 加速。目前已在悟空图像等应用中落地，运行稳定。SGL 提供 C API 和 NAPI 接口，可轻松集成到鸿蒙应用中，大幅降低开发门槛。

AI产品华为鸿蒙 GPU加速开源/仓库图像处理

推荐理由：鸿蒙开发者终于有了开箱即用的 GPU 加速方案，做相册、修图、AI 创作等图形密集型应用的团队，三行代码就能调用 GPU 滤镜，建议直接试。

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月15日

11:24

11:24

arXiv: Google DeepMind@Juho Kim, Tuomas Sandholm

精选

这篇论文提出了一种将反事实遗憾最小化（CFR）算法并行化的通用框架，通过将CFR重新表述为一系列线性代数运算，从而利用现有的并行线性代数技术加速。实验表明，在GPU上实现的CFR比Google DeepMind的OpenSpiel库在CPU上的实现快高达四个数量级。该框架还适用于CFR+、折扣CFR和预测变体等最先进的表格型CFR算法。这项工作填补了并行化在博弈求解领域应用的空白，有望大幅加速大型不完美信息博弈的求解。

论文博弈求解并行计算 GPU加速 CFR算法不完美信息博弈

推荐理由：博弈论和AI研究者终于有了加速CFR的实用方案——GPU并行化让求解速度提升万倍，做不完美信息博弈的团队可以直接用这个框架改造现有算法。