全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

10:15

10:15

arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas

这篇论文通过训练GPT-J在两种结构等价的多跳推理任务（数字任务需位置推理，字母任务需符号推理）上，研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型，发现成功学习与纯头（即只表现一种类型）的出现相关。尽管任务结构等价，但数字任务需要位置和符号两种头，而字母任务只需符号头。论文进一步揭示了这些头的计算角色，并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠，而位置机制有更明显的局限性，并通过理论和实验验证了这种分离。

论文注意力机制 RoPE 长度泛化 Transformer 多跳推理

推荐理由：这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异，做Transformer机制研究或长上下文优化的开发者值得细读，看完会对RoPE的几何解释有更深理解。

5月26日

12:25

12:25

arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo

精选

长度泛化是神经网络长期面临的挑战：循环模型存在位置偏差，而Transformer受限于固定计算深度。研究人员提出MLP-LDRU（对数深度循环单元），通过并行归约近似循环计算，捕获结合性偏置算子。在21个正则语言任务中，MLP-LDRU在18个任务上实现100%的分布外准确率，其余3个任务至少达到99.9%，显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中，MLP-LDRU也表现出竞争力。

论文长度泛化循环单元正则语言 MLP-LDRU 序列建模

推荐理由：长度泛化是AI模型的硬骨头，MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板，做序列建模和语言理解的团队值得关注这个新架构。