Parallax：参数化局部线性注意力，保留Softmax并添加学习协方差校正分支

精选理由

注意力效率翻倍，困惑度更低

AI 摘要

Parallax是一种新型参数化局部线性注意力（LLA）机制，通过学习投影器替换逐查询求解器，将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上，Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时，引入了一个学习的协方差校正分支，用于建模更丰富的上下文依赖。

AI 翻译 · 中文

marktechpostParallax replaces LLA's per-query solver with a learned projector, doubling arithmetic intensity and improving perplexity at 0.6B and 1.7B. The post Parallax: A Parameterized Local Linear Attention That Keeps Softmax and…

阅读原文