AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:长度泛化×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
10:15
10:15arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas
这篇论文通过训练GPT-J在两种结构等价的多跳推理任务(数字任务需位置推理,字母任务需符号推理)上,研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型,发现成功学习与纯头(即只表现一种类型)的出现相关。尽管任务结构等价,但数字任务需要位置和符号两种头,而字母任务只需符号头。论文进一步揭示了这些头的计算角色,并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠,而位置机制有更明显的局限性,并通过理论和实验验证了这种分离。
论文注意力机制RoPE长度泛化Transformer多跳推理

推荐理由:这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异,做Transformer机制研究或长上下文优化的开发者值得细读,看完会对RoPE的几何解释有更深理解。
原文
5月26日
12:25
12:25arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo
精选
长度泛化是神经网络长期面临的挑战:循环模型存在位置偏差,而Transformer受限于固定计算深度。研究人员提出MLP-LDRU(对数深度循环单元),通过并行归约近似循环计算,捕获结合性偏置算子。在21个正则语言任务中,MLP-LDRU在18个任务上实现100%的分布外准确率,其余3个任务至少达到99.9%,显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中,MLP-LDRU也表现出竞争力。
论文长度泛化循环单元正则语言MLP-LDRU序列建模

推荐理由:长度泛化是AI模型的硬骨头,MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板,做序列建模和语言理解的团队值得关注这个新架构。
原文
精选全部日报登录