相似性位置编码simPE在旋转下的鲁棒性:理论分析与实验验证

Robustness of Similarity-based Positional Encoding Under Rotations: Theoretical Analysis and Experimental Validation

精选理由

这篇论文证明了simPE在图像旋转下比标准位置编码更稳,用四个数据集给出了理论界和实验验证,做视觉Transformer的值得看。

AI 摘要

本研究从理论和实验两方面分析了相似性位置编码(simPE)在旋转扰动下的鲁棒性。论文首先证明simPE通常不具备旋转不变性,但基于Lipschitz假设推导出其在Frobenius范数下的显式扰动界。实验在四个数据集(Arrow、Shapes、Digits、FashionMNIST)上进行,测试图像逐渐增大旋转角度,simPE在准确率、F1、精确率和召回率上均优于标准学习型位置编码,尤其在小到中等旋转角度下表现更优。

AI 翻译 · 中文

本研究从理论和实验两方面分析了相似性位置编码(simPE)在旋转扰动下的鲁棒性。论文首先证明simPE通常不具备旋转不变性,但基于Lipschitz假设推导出其在Frobenius范数下的显式扰动界。实验在四个数据集(Arrow、Shapes、Digits、FashionMNIST)上进行,测试图像逐渐增大旋转角度,simPE在准确率、F1、精确率和召回率上均优于标准学习型位置编码,尤其在小到中等旋转角度下表现更优。

arXiv cs.AIPositional encoding is a fundamental component of Transformer architectures, as it injects information about the spatial or sequential arrangement of inputs. Among recent alternatives to standard absolute and sinusoidal