精选理由
注意力效率翻倍,困惑度更低
Parallax是一种新型参数化局部线性注意力(LLA)机制,通过学习投影器替换逐查询求解器,将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上,Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时,引入了一个学习的协方差校正分支,用于建模更丰富的上下文依赖。
AI 翻译 · 中文
Parallax是一种新型参数化局部线性注意力(LLA)机制,通过学习投影器替换逐查询求解器,将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上,Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时,引入了一个学习的协方差校正分支,用于建模更丰富的上下文依赖。
Parallax replaces LLA's per-query solver with a learned projector, doubling arithmetic intensity and improving perplexity at 0.6B and 1.7B. The post Parallax: A Parameterized Local Linear Attention That Keeps Softmax and…