09:21arXiv cs.LG@Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo精选Flash-GMM 是一个融合的 Triton 内核,用于在单次 GPU 传递中高效计算高斯混合模型(GMM)。它通过避免在 GPU 内存中实例化完整的责任矩阵,实现了比现有实现快 20 倍的加速,并支持在单个设备上训练比以往大 100 倍以上的数据集。该内核被集成到 IVF 粗量化器中用于近似最近邻搜索,表明软 GMM 聚类可以替代 k-means,并利用 GMM 责任将边界向量分配到多个簇。在达到固定召回率目标时,Flash-GMM 减少了最多 1.7 倍的距离计算,或在相同计算成本下召回率提升 2-12 个点。该项目已开源。论文GMMGPU加速聚类近似最近邻搜索开源推荐理由:做大规模聚类或近似最近邻搜索的团队,Flash-GMM 让你在单卡上处理百倍数据量,速度还快 20 倍,直接替换 k-means 就能提升召回率,值得一试。原文
11:24arXiv: Google DeepMind@Juho Kim, Tuomas Sandholm精选这篇论文提出了一种将反事实遗憾最小化(CFR)算法并行化的通用框架,通过将CFR重新表述为一系列线性代数运算,从而利用现有的并行线性代数技术加速。实验表明,在GPU上实现的CFR比Google DeepMind的OpenSpiel库在CPU上的实现快高达四个数量级。该框架还适用于CFR+、折扣CFR和预测变体等最先进的表格型CFR算法。这项工作填补了并行化在博弈求解领域应用的空白,有望大幅加速大型不完美信息博弈的求解。论文博弈求解并行计算GPU加速CFR算法不完美信息博弈推荐理由:博弈论和AI研究者终于有了加速CFR的实用方案——GPU并行化让求解速度提升万倍,做不完美信息博弈的团队可以直接用这个框架改造现有算法。原文