全部 AI 动态 · AI 热点

6月29日

10:15

10:15

arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li

该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性，采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标，全局Lipschitz梯度常数可能不存在。论文证明，在不变开状态空间域上，Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射，其严格鞍点KKT点是不稳定不动点，因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果，这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。

论文 Bregman ADMM KKT 优化算法非凸优化分布式优化

推荐理由：这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点，解决了传统方法无法处理多项式目标的问题，对矩阵分解等应用有实际指导意义。

6月23日

10:34

10:34

arXiv cs.LG@Shengchao Zhao, Yongchao Liu

论文提出VRA-FedSGD算法，针对联邦学习中重尾梯度噪声和通信噪声问题。该算法采用动量方差缩减配合非线性映射减轻重尾梯度噪声，并使用方差缩减聚合机制抑制重尾通信噪声。在非凸目标函数下，均方收敛率为O(K^{-(p-1)/(2p-1)})，其中p为尾指数；在强凸目标函数下，几乎必然收敛率为O~(K^{-(1-1/(p-ε))})。在逻辑回归问题上的仿真实验验证了算法有效性。

论文 VRA-FedSGD 联邦学习方差缩减重尾噪声非凸优化

推荐理由：这篇论文搞了个VRA-FedSGD，专门对付联邦学习里常见的重尾噪声，收敛速度有理论保证，实验也跑通了，值得看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:11

11:11

arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit Sra

Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异，但其理论优势一直未明确。本研究证明在重尾非凸场景（随机梯度p阶中心矩有界，p∈(1,2]）下，非欧几里得方法在更强的平稳性度量下达到最优样本复杂度，而欧几里得方法有额外维度依赖。对于m×n矩阵，Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本，可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论，并表明其他Schatten几何在某些设置下也可与Muon竞争。

论文 Muon Scion 优化算法理论分析非凸优化

推荐理由：Muon为何能训练Transformer？

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

14:49

14:49

arXiv cs.LG@Zijian Liu

精选

现代机器学习优化中常出现重尾梯度噪声，传统方法需梯度裁剪或归一化来保证收敛。本文首次证明 AdaGrad（自适应梯度方法的起源）在非凸优化中，当尾指数 p 满足 4/3 < p ≤ 2 时无需任何算法修改即可收敛，且无需预先知道 p 值。研究还给出了算法相关的下界，表明 AdaGrad 无法达到重尾优化的最优 minimax 速率。对于 AdaGrad-Norm 变体，在额外温和假设下，收敛率可推广到任意 1 < p ≤ 2。

论文 AdaGrad 重尾噪声收敛性分析非凸优化自适应梯度方法

推荐理由：理论研究者终于有了 AdaGrad 在重尾噪声下的收敛保证，做优化算法分析的人值得关注——它解释了为何 Adam 等自适应方法在真实场景中表现稳健，且无需额外操作。