论文精选

SMT:无需循环传播的RNN预训练方法

Pretraining Recurrent Networks without Recurrence

精选理由

SMT解决了RNN训练中并行性差和长程依赖难学的问题,做序列建模或时间序列分析的开发者可以直接用这个方法替代BPTT,训练效率会大幅提升。

AI 摘要

论文提出Supervised Memory Training (SMT),一种训练非线性RNN的新方法。SMT通过将RNN训练转化为一步记忆转换标签的监督学习,完全绕过了传统的循环信用分配。它利用基于Transformer的编码器从预测状态目标中获取记忆标签,只保留预测未来所需的过去信息。SMT实现了时间并行训练,任意两个token之间的梯度路径长度稳定为O(1),无需展开RNN。实验表明,SMT在语言建模和像素序列建模等任务上优于BPTT,能更好地捕捉长程依赖关系。

AI 翻译 · 中文

论文提出Supervised Memory Training (SMT),一种训练非线性RNN的新方法。SMT通过将RNN训练转化为一步记忆转换标签的监督学习,完全绕过了传统的循环信用分配。它利用基于Transformer的编码器从预测状态目标中获取记忆标签,只保留预测未来所需的过去信息。SMT实现了时间并行训练,任意两个token之间的梯度路径长度稳定为O(1),无需展开RNN。实验表明,SMT在语言建模和像素序列建模等任务上优于BPTT,能更好地捕捉长程依赖关系。

arXiv cs.AITraining recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is sequential in time, limiting pa