全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

10:15

10:15

arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas

这篇论文通过训练GPT-J在两种结构等价的多跳推理任务（数字任务需位置推理，字母任务需符号推理）上，研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型，发现成功学习与纯头（即只表现一种类型）的出现相关。尽管任务结构等价，但数字任务需要位置和符号两种头，而字母任务只需符号头。论文进一步揭示了这些头的计算角色，并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠，而位置机制有更明显的局限性，并通过理论和实验验证了这种分离。

论文注意力机制 RoPE 长度泛化 Transformer 多跳推理

推荐理由：这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异，做Transformer机制研究或长上下文优化的开发者值得细读，看完会对RoPE的几何解释有更深理解。