09:47arXiv cs.LG@Valentin Abadie, Clemens Hutter, Helmut Bölcskei本文证明:对于 [-1,1] 上的任意连续函数,存在一个固定的 ReLU RNN(隐层维度固定、权重固定),通过延长运行时间即可实现一致逼近。核心创新在于引入中间模型 TMNU(Turing machine with neural units),它保留了实现多项式逼近方案的算法自由度,同时能被隐维度和权重大小有明确上界的 RNN 模拟。得到的收敛速率与底层多项式逼近率对应。本文还给出了极小极大下界,证明运行时间是该固定网络逼近范式中不可避免的资源。论文RNNRecurrent Neural Networks逼近定理TMNU连续函数推荐理由:这篇论文很硬核:用一个固定 RNN 就能逼近任意连续函数,运行越长越准,像图灵机一样。原文
12:14arXiv cs.AI@Akarsh Kumar, Phillip Isola精选论文提出Supervised Memory Training (SMT),一种训练非线性RNN的新方法。SMT通过将RNN训练转化为一步记忆转换标签的监督学习,完全绕过了传统的循环信用分配。它利用基于Transformer的编码器从预测状态目标中获取记忆标签,只保留预测未来所需的过去信息。SMT实现了时间并行训练,任意两个token之间的梯度路径长度稳定为O(1),无需展开RNN。实验表明,SMT在语言建模和像素序列建模等任务上优于BPTT,能更好地捕捉长程依赖关系。论文RNN预训练长程依赖并行训练监督学习推荐理由:SMT解决了RNN训练中并行性差和长程依赖难学的问题,做序列建模或时间序列分析的开发者可以直接用这个方法替代BPTT,训练效率会大幅提升。原文