10:34arXiv cs.LG@Shengchao Zhao, Yongchao Liu论文提出VRA-FedSGD算法,针对联邦学习中重尾梯度噪声和通信噪声问题。该算法采用动量方差缩减配合非线性映射减轻重尾梯度噪声,并使用方差缩减聚合机制抑制重尾通信噪声。在非凸目标函数下,均方收敛率为O(K^{-(p-1)/(2p-1)}),其中p为尾指数;在强凸目标函数下,几乎必然收敛率为O~(K^{-(1-1/(p-ε))})。在逻辑回归问题上的仿真实验验证了算法有效性。论文VRA-FedSGD联邦学习方差缩减重尾噪声非凸优化推荐理由:这篇论文搞了个VRA-FedSGD,专门对付联邦学习里常见的重尾噪声,收敛速度有理论保证,实验也跑通了,值得看看。原文
10:57arXiv cs.AI@Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine精选预训练扩散模型常作为冻结教师模型用于下游任务(如文本到 3D、单步蒸馏、数据归因),但这些任务依赖蒙特卡洛期望估计梯度,方差大且计算成本高。本文提出 CARV 框架,通过分层蒙特卡洛估计器,在扩散噪声重采样上摊销昂贵上游计算,结合时间步重要性采样和分层逆 CDF 构造,有效降低方差。在文本到 3D 蒸馏和归因实验中,CARV 实现 2-3 倍有效计算加速,且不改变目标函数;在单步蒸馏中方差降低一个数量级,但下游 FID 无改善,表明此时方差已非瓶颈。该工作为扩散模型下游应用提供了高效方差缩减方案。论文扩散模型方差缩减蒙特卡洛估计文本到 3D蒸馏推荐理由:做扩散模型下游应用(如文本到 3D、蒸馏)的团队,如果被梯度方差和计算成本困扰,CARV 的 2-3 倍加速值得直接尝试。原文