SMT：无需循环传播的RNN预训练方法

精选理由

SMT解决了RNN训练中并行性差和长程依赖难学的问题，做序列建模或时间序列分析的开发者可以直接用这个方法替代BPTT，训练效率会大幅提升。

AI 摘要

论文提出Supervised Memory Training (SMT)，一种训练非线性RNN的新方法。SMT通过将RNN训练转化为一步记忆转换标签的监督学习，完全绕过了传统的循环信用分配。它利用基于Transformer的编码器从预测状态目标中获取记忆标签，只保留预测未来所需的过去信息。SMT实现了时间并行训练，任意两个token之间的梯度路径长度稳定为O(1)，无需展开RNN。实验表明，SMT在语言建模和像素序列建模等任务上优于BPTT，能更好地捕捉长程依赖关系。

AI 翻译 · 中文

arXiv cs.AITraining recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is sequential in time, limiting pa…

阅读原文