12:36marktechpost@Asif Razzaq精选Parallax是一种新型参数化局部线性注意力(LLA)机制,通过学习投影器替换逐查询求解器,将算术强度提升至原来的两倍。在0.6B和1.7B参数规模的语言模型上,Parallax显著降低了困惑度。该方法在保留原始Softmax注意力的同时,引入了一个学习的协方差校正分支,用于建模更丰富的上下文依赖。AI模型ParallaxLLASoftmax注意力机制推荐理由:注意力效率翻倍,困惑度更低原文