09:43arXiv: DeepSeek@Fengfeng Liang, Yuechen Zhang, Jiaya Jia精选Block-GTQ是一种针对RoPE注意力机制的KV缓存量化位分配方法,基于TurboQuant-MSE构建。它在每个层和注意力头上计算RoPE块的能量得分,通过贪心分配整数位宽。在2和3比特每维度仅量化键的实验中,Block-GTQ在10个模型上使每层平均绝对误差降低32-80%,并赢得全部367个层比较。在Llama-3.1-8B-Instruct上以K2V2配置,NIAH六任务平均从70.6提升至97.4,LongBench英文平均从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B上以K3V2配置,AIME 2024/2025得分51.7/37.5,接近fp16的54.2/37.9,而均匀量化降为0.0/0.0。在H800上对Qwen2.5-3B-Instruct实现3.24倍压缩,128K上下文比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB。论文Block-GTQRoPEKV缓存量化长上下文量化推荐理由:这篇论文用RoPE感知的位分配方案,在KV缓存量化上显著提升长上下文检索和推理,效果逼平fp16,值得研究量化的朋友细读。原文
10:15arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen精选这篇论文研究了Transformer中注意力机制的函数等价性,重点分析了sinusoidal和旋转位置编码(RoPE)两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构,而RoPE显著减小了对称群,从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性,并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性,有助于优化和泛化。论文TransformerRoPE位置编码注意力机制函数等价性推荐理由:这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性,让Transformer表达力更强。如果你好奇背后的理论,值得一看。原文
11:32arXiv cs.AI@Arunkumar V, Manoranjan Gandhudi, Gangadharan G. R., Arun Prakash, S. SenthilkumarMA-SBI 提出通过侧信道文本(如制度标签或政策公告)校正模拟器误指定,无需真实参数对。理论证明误指定校正的偏差减少受侧信道与误指定互信息上界约束,且对次高斯噪声非平凡。在隐藏校准基准上,仅使用文本的 MA-SBI 在 10 个种子和两个骨干上达到与原 Oracle 后验的 TOST 等价,而 RoPE 即使使用更多数据也未实现。在真实 COVID 和 OxCGRT 流行病学数据上,随机变体改进了后验预测对数似然,并在良好指定的认知科学语料上正确保持后验不变。论文MA-SBI模拟推断误指定侧信道RoPE推荐理由:这篇论文给出了一个不依赖真实参数对的新方法MA-SBI,用文本作为侧信道校正模拟器错误,在多个基准上比当前最好的RoPE还强,而且理论也扎实。原文
12:38arXiv cs.AI@Boyang Li, Yulin Wu, Sizhe Xu, Nuoxian Huang, Zhonghang Yuan, Shangyi Guo, Shu Yang, Takahiro Yabe精选nD-RoPE 是一种将旋转位置编码(RoPE)推广到任意维度的新方法。现有高维 RoPE 方法要么独立旋转每个轴,要么经验性地混合频率,限制了跨维度交互并导致方向依赖的表示。nD-RoPE 从连续希尔伯特空间的平移不变性出发,推导出各向同性的谱条件,要求将位置和频率视为耦合的 n 维向量。它采用多尺度正则单纯形波矢设计,提供非退化的空间覆盖和对称、方向平衡的二阶响应。在图像、视频和点云上的实验表明,nD-RoPE 在性能提升和泛化能力上均优于现有方法。论文位置编码RoPETransformer高维表示论文推荐理由:nD-RoPE 解决了高维位置编码缺乏统一理论框架的问题,做视觉、视频或点云 Transformer 的开发者可以直接用,能显著提升模型对空间结构的理解能力。原文
10:15arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas这篇论文通过训练GPT-J在两种结构等价的多跳推理任务(数字任务需位置推理,字母任务需符号推理)上,研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型,发现成功学习与纯头(即只表现一种类型)的出现相关。尽管任务结构等价,但数字任务需要位置和符号两种头,而字母任务只需符号头。论文进一步揭示了这些头的计算角色,并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠,而位置机制有更明显的局限性,并通过理论和实验验证了这种分离。论文注意力机制RoPE长度泛化Transformer多跳推理推荐理由:这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异,做Transformer机制研究或长上下文优化的开发者值得细读,看完会对RoPE的几何解释有更深理解。原文