学习动力学揭示权重诱导的层级Gram度量层次结构

精选理由

该研究为深度网络学习动力学提供了新的理论框架，做深度学习理论或理解网络内部机制的读者可以直接参考其层级Gram度量方法。

AI 摘要

该研究探讨了具有固定读出层和二次损失的前馈ReLU网络，旨在将梯度下降重写为训练集空间上定义的场的集体动力学，而非权重空间的动力学。对于单隐层网络，可以从激活动力学中消除权重变量，得到残差的封闭方程，该方程由输入几何矩阵和动态共激活矩阵分解的集体核控制。对于更深网络，残差动力学保留了清晰的层级核结构，但从三层深度开始，封闭需要一组权重诱导的Gram算子层次结构来跨层传输信息。这项工作为理解深度网络的学习动态提供了新的理论视角。

AI 翻译 · 中文

arXiv cs.LGWe study feed-forward ReLU networks with fixed readout and quadratic loss. The aim is to rewrite gradient descent not primarily as a dynamics in weight space, but as a collective dynamics closed in terms of fields define…

阅读原文