12:12arXiv cs.LG@Srinivasa Rao P., Vangmayi P Reddy该论文提出统一框架,连接信息论、拓扑和统计力学,解释深度学习的泛化极限。核心是熵可学习性界限(ELH),规定网络仅当数据流形香农熵超过决策边界拓扑熵且平衡网络权重的冯·诺依曼熵时才能学习。作者证明香农-拓扑瓶颈定理,表明超过此界限时系统进入信息挫折的玻璃态记忆阶段,泛化变得热力学不可能。他们发现grokking现象实质是熵释放,权重突然重组解锁瓶颈。论文还提出熵梯度下降(EGD)算法,动态管理权重熵以保持学习轨道。论文深度学习理论信息论泛化grokking可学习性推荐理由:这篇论文用熵来解释深度学习泛化的硬极限和grokking,还给了EGD优化算法,理论研究者可以看看。原文
12:27arXiv cs.LG@Claudio Nordio精选该研究探讨了具有固定读出层和二次损失的前馈ReLU网络,旨在将梯度下降重写为训练集空间上定义的场的集体动力学,而非权重空间的动力学。对于单隐层网络,可以从激活动力学中消除权重变量,得到残差的封闭方程,该方程由输入几何矩阵和动态共激活矩阵分解的集体核控制。对于更深网络,残差动力学保留了清晰的层级核结构,但从三层深度开始,封闭需要一组权重诱导的Gram算子层次结构来跨层传输信息。这项工作为理解深度网络的学习动态提供了新的理论视角。论文深度学习理论学习动力学Gram度量ReLU网络梯度下降推荐理由:该研究为深度网络学习动力学提供了新的理论框架,做深度学习理论或理解网络内部机制的读者可以直接参考其层级Gram度量方法。原文
11:03arXiv cs.LG@George Whittle, Pranav Vaidhyanathan, Juliusz Ziomek, Natalia Ares, Maike A. Osborne精选本文研究了宽神经网络在特征学习机制下的正则化问题,指出梯度流训练隐含的正则化偏好在核机制和特征学习机制中存在根本差异。在核机制中,梯度流自然选择岭回归解,而特征学习机制中岭回归会扭曲网络的归纳偏置,尤其损害预训练模型。作者通过公理化方法定义了规范正则化器,并利用黎曼几何推导出特征学习机制下的测地岭正则化。作为实用替代,提出了弧岭正则化,揭示了早停与规范正则化之间的深层联系。实验在图像处理和NLP迁移学习任务上验证了理论。论文正则化特征学习黎曼几何核机制深度学习理论推荐理由:这篇论文解决了特征学习网络缺乏规范正则化理论的痛点,做深度学习理论和正则化研究的学者值得细读——它用黎曼几何统一了核机制和特征学习机制,并给出了可落地的弧岭正则化方案。原文
19:11arXiv cs.LG@Tiberiu Musat精选80°该论文证明在固定精度下,循环神经网络的权重范数最小值与输出二进制字符串的柯尔莫哥洛夫复杂度成对数比例。这一结论将权重衰减的泛化能力与所罗门诺夫通用先验联系起来,揭示了正则化的理论基础。研究表明,固定精度下任何权重范数都会坍缩为非零参数计数,因此该结论适用于任意范数正则化器。证明通过将图灵机程序编码为神经权重和枚举非零参数两个方向实现,其中对数因子由置换编码实现。该结果强调固定精度假设的关键性,因为无限精度下神经网络可能编码非可计算函数。论文深度学习理论正则化柯尔莫哥洛夫复杂度泛化性推荐理由:为权重衰减的优越性提供了理论解释,将神经网络正则化与计算复杂性理论直接关联,对理解深度学习泛化机理有重要参考价值。原文