精选理由
这篇论文用熵来解释深度学习泛化的硬极限和grokking,还给了EGD优化算法,理论研究者可以看看。
该论文提出统一框架,连接信息论、拓扑和统计力学,解释深度学习的泛化极限。核心是熵可学习性界限(ELH),规定网络仅当数据流形香农熵超过决策边界拓扑熵且平衡网络权重的冯·诺依曼熵时才能学习。作者证明香农-拓扑瓶颈定理,表明超过此界限时系统进入信息挫折的玻璃态记忆阶段,泛化变得热力学不可能。他们发现grokking现象实质是熵释放,权重突然重组解锁瓶颈。论文还提出熵梯度下降(EGD)算法,动态管理权重熵以保持学习轨道。
AI 翻译 · 中文
该论文提出统一框架,连接信息论、拓扑和统计力学,解释深度学习的泛化极限。核心是熵可学习性界限(ELH),规定网络仅当数据流形香农熵超过决策边界拓扑熵且平衡网络权重的冯·诺依曼熵时才能学习。作者证明香农-拓扑瓶颈定理,表明超过此界限时系统进入信息挫折的玻璃态记忆阶段,泛化变得热力学不可能。他们发现grokking现象实质是熵释放,权重突然重组解锁瓶颈。论文还提出熵梯度下降(EGD)算法,动态管理权重熵以保持学习轨道。
Why overparameterised deep networks generalise so remarkably well remains one of the most stubborn open questions in machine learning theory. Classical frameworks like VC dimension and Rademacher complexity predict catas…