注意力的函数等价性：位置编码如何改变Transformer对称性

精选理由

这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性，让Transformer表达力更强。如果你好奇背后的理论，值得一看。

AI 摘要

这篇论文研究了Transformer中注意力机制的函数等价性，重点分析了sinusoidal和旋转位置编码（RoPE）两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构，而RoPE显著减小了对称群，从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性，并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性，有助于优化和泛化。

AI 翻译 · 中文

arXiv cs.LGNeural network parameter spaces are inherently non-injective, as distinct parameter configurations can realize identical functions through functional equivalence. While this symmetry is well understood in classical fully…

阅读原文