MLP-LDRU：对数深度循环单元实现长度泛化新突破

精选理由

长度泛化是AI模型的硬骨头，MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板，做序列建模和语言理解的团队值得关注这个新架构。

AI 摘要

长度泛化是神经网络长期面临的挑战：循环模型存在位置偏差，而Transformer受限于固定计算深度。研究人员提出MLP-LDRU（对数深度循环单元），通过并行归约近似循环计算，捕获结合性偏置算子。在21个正则语言任务中，MLP-LDRU在18个任务上实现100%的分布外准确率，其余3个任务至少达到99.9%，显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中，MLP-LDRU也表现出竞争力。

AI 翻译 · 中文

arXiv cs.LGLength generalization remains a persistent challenge for neural networks: recurrent models tend to suffer from positional biases, while transformers are constrained by fixed computational depth. Regular languages provide…

阅读原文