精选理由
该研究为深度网络学习动力学提供了新的理论框架,做深度学习理论或理解网络内部机制的读者可以直接参考其层级Gram度量方法。
该研究探讨了具有固定读出层和二次损失的前馈ReLU网络,旨在将梯度下降重写为训练集空间上定义的场的集体动力学,而非权重空间的动力学。对于单隐层网络,可以从激活动力学中消除权重变量,得到残差的封闭方程,该方程由输入几何矩阵和动态共激活矩阵分解的集体核控制。对于更深网络,残差动力学保留了清晰的层级核结构,但从三层深度开始,封闭需要一组权重诱导的Gram算子层次结构来跨层传输信息。这项工作为理解深度网络的学习动态提供了新的理论视角。
AI 翻译 · 中文
该研究探讨了具有固定读出层和二次损失的前馈ReLU网络,旨在将梯度下降重写为训练集空间上定义的场的集体动力学,而非权重空间的动力学。对于单隐层网络,可以从激活动力学中消除权重变量,得到残差的封闭方程,该方程由输入几何矩阵和动态共激活矩阵分解的集体核控制。对于更深网络,残差动力学保留了清晰的层级核结构,但从三层深度开始,封闭需要一组权重诱导的Gram算子层次结构来跨层传输信息。这项工作为理解深度网络的学习动态提供了新的理论视角。
We study feed-forward ReLU networks with fixed readout and quadratic loss. The aim is to rewrite gradient descent not primarily as a dynamics in weight space, but as a collective dynamics closed in terms of fields define…