全部 AI 动态 · AI 热点

6月29日

10:15

10:15

arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li

该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性，采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标，全局Lipschitz梯度常数可能不存在。论文证明，在不变开状态空间域上，Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射，其严格鞍点KKT点是不稳定不动点，因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果，这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。

论文 Bregman ADMM KKT 优化算法非凸优化分布式优化

推荐理由：这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点，解决了传统方法无法处理多项式目标的问题，对矩阵分解等应用有实际指导意义。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:07

11:07

arXiv cs.LG@Daniel Csillag, Rodrigo Schuller, Pedro Dall'Antonia, Leonidas Guibas, Luiz Velho, Tiago Novello

这篇论文提出了一个新型的泛函梯度下降（FGD）算法，该算法在优化过程中自适应调整泛函梯度的表示，解决了固定近似引入误差的问题。作者证明，在光滑损失条件下该算法收敛到平稳点，在附加Polyak-Lojasiewicz条件时收敛到全局最小值，这是首个在一般环境下具有此类保证的可实现FGD方法。在回归、偏微分方程数值求解和现代计算机视觉任务中，该方法在效率和准确度上均优于固定近似FGD和神经网络基线。

AI模型 FGD 自适应表示优化算法收敛性

推荐理由：这篇论文提出了首个可实现的泛函梯度下降算法，能自适应调整梯度表示，理论上有收敛保证，实验上比传统FGD和神经网络更快更准。

6月15日

11:11

11:11

arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit Sra

Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异，但其理论优势一直未明确。本研究证明在重尾非凸场景（随机梯度p阶中心矩有界，p∈(1,2]）下，非欧几里得方法在更强的平稳性度量下达到最优样本复杂度，而欧几里得方法有额外维度依赖。对于m×n矩阵，Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本，可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论，并表明其他Schatten几何在某些设置下也可与Muon竞争。

论文 Muon Scion 优化算法理论分析非凸优化

推荐理由：Muon为何能训练Transformer？

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:32

09:32

arXiv cs.LG@Yiyuan She, Zhaojun Hu, Yifan Sun

精选

本文提出了一种名为“范围正则化”的新方法，用于联邦学习场景，旨在提升统计精度并促进跨客户端的规律性，从而有利于量化、编码和资源效率。该方法通过识别不同客户端间共享权重的特征，并将个性化特征的权重自适应地聚类到极值（称为极值聚类），解决了传统正则化器因半范数特性和不可分解性带来的理论分析难题。研究者开发了新的非渐近分析技术，用于评估统计精度和模式恢复的可靠性，并提出了利用局部强凸性的快速优化算法以减少迭代复杂度。实验验证了该方法在联邦学习中的有效性和效率，为分布式机器学习提供了新的理论工具。

论文联邦学习正则化极值聚类理论分析优化算法

推荐理由：联邦学习团队终于有了一个兼顾理论严谨和实际效率的正则化方案——极值聚类能显著提升模型压缩和通信效率，做分布式系统或资源受限场景的开发者可以直接参考实验设置。

6月2日

11:17

11:17

arXiv cs.LG@Gjorgjina Cenikj, Jakub Kudela, Eva Tuba, Tome Eftimov

精选

该研究系统评估了算法选择（AS）模型在合成与真实优化场景间的泛化能力。研究使用了BBOB和CEC两个学术基准套件，以及机器人轨迹优化和无人机路径规划两个真实问题集。通过跨基准测试发现，AS模型在学术基准间表现良好，但迁移到真实领域时泛化能力显著下降。研究揭示了当前AS方法在领域特定应用中的鲁棒性挑战，为开发更可靠的实用AS系统提供了方向。

论文算法选择泛化能力优化算法机器人轨迹优化无人机路径规划

推荐理由：做优化算法选型或自动化机器学习的研究者值得关注——这项研究直接点出了学术基准与真实场景的鸿沟，看完能帮你避开模型部署的坑。

5月19日

11:05

11:05

arXiv cs.LG@Abdurakhmon Sadiev, Artavazd Maranjyan, Ivan Ilin, Peter Richtárik

精选

Muon 作为 AdamW 的替代方案在神经网络训练中表现出色，但基于线性最小化预言机（LMO）的方法通常采用同步训练，在异构分布式系统中受限于慢速工作节点。本文提出 Ringmaster LMO，一种异步 LMO 动量方法，借鉴 Ringmaster ASGD 的延迟阈值思想，通过丢弃过时梯度实现最优时间复杂度。该方法在广义 (L0, L1)-光滑性下建立了收敛保证，并开发了参数无关的变体。实验表明，在随机二次问题和 NanoChat 语言模型预训练中，Ringmaster LMO 在异构环境下显著优于同步和异步基线。

论文异步训练分布式系统优化算法 Muon LMO

推荐理由：分布式训练团队终于有了异步 LMO 方法的理论保障——Ringmaster LMO 解决了异构集群中慢节点拖累效率的问题，做大规模预训练或异构系统优化的开发者值得关注。

5月14日

13:36

13:36

Weights & Biases@weights_biases

Andrej Karpathy 在社交媒体上发布了一条简短但引人深思的推文：“let there be descent”，引用自《创世纪》的“let there be light”变体。这条推文暗示了机器学习中梯度下降（descent）的核心地位，可能是在强调优化算法在AI训练中的根本作用。Karpathy 作为AI领域的重要人物，其言论常引发社区对基础概念的重新思考。这条推文可能是在鼓励开发者回归对优化本质的理解，而非追逐复杂模型。

行业梯度下降 Karpathy AI训练优化算法社区观点

推荐理由：Karpathy 用一句话点醒了AI社区：别光顾着堆模型，梯度下降才是根本。做训练和优化的开发者看完会有感触，值得停下来想想。