10:15arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas这篇论文通过训练GPT-J在两种结构等价的多跳推理任务(数字任务需位置推理,字母任务需符号推理)上,研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型,发现成功学习与纯头(即只表现一种类型)的出现相关。尽管任务结构等价,但数字任务需要位置和符号两种头,而字母任务只需符号头。论文进一步揭示了这些头的计算角色,并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠,而位置机制有更明显的局限性,并通过理论和实验验证了这种分离。论文注意力机制RoPE长度泛化Transformer多跳推理推荐理由:这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异,做Transformer机制研究或长上下文优化的开发者值得细读,看完会对RoPE的几何解释有更深理解。原文
12:25arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo精选长度泛化是神经网络长期面临的挑战:循环模型存在位置偏差,而Transformer受限于固定计算深度。研究人员提出MLP-LDRU(对数深度循环单元),通过并行归约近似循环计算,捕获结合性偏置算子。在21个正则语言任务中,MLP-LDRU在18个任务上实现100%的分布外准确率,其余3个任务至少达到99.9%,显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中,MLP-LDRU也表现出竞争力。论文长度泛化循环单元正则语言MLP-LDRU序列建模推荐理由:长度泛化是AI模型的硬骨头,MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板,做序列建模和语言理解的团队值得关注这个新架构。原文