Transformer样本复杂度紧界：VC维与思维链学习

精选理由

理论研究者终于有了Transformer样本复杂度的紧界——VC维和思维链学习的下界都算清楚了，做深度学习理论的团队值得细读。

AI 摘要

该论文严格刻画了深度L、总参数W的Transformer的VC维，上界为O(L W log(T W))，下界为Ω(L W log(T W / L))，其中T为输入序列长度。进一步，论文给出了思维链学习（chain-of-thought）的样本复杂度紧界：教师强制（teacher forcing）方法需要O(L W log((T+T')W))个样本，而任何利用思维链数据的学习规则至少需要Ω(L W log((T+T')W / L))个样本，T'为自回归步数。这些结果首次为Transformer的泛化能力提供了理论保证，对理解大模型的数据效率有重要意义。

AI 翻译 · 中文

arXiv cs.LGWe tightly characterize the VC dimension of depth-$L$ Transformers with a total of $W$ parameters, mapping an input sequence of length $T$ to a single output, establishing an upper bound of $O(L W \log (T W))$ and a near…

阅读原文