AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:注意力机制×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
07:01
07:01Together AI@togethercompute
精选
Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。
论文长上下文显存优化注意力机制Together AI训练效率

推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月9日
20:29
20:29rohanpaul_ai@rohanpaul_ai
一篇新论文发现 Transformer 的 Key 和 Value 投影可以共享同一映射,从而将 KV 缓存减少 50%,而困惑度仅上升 3.1%。最佳变体 Q-K=V 保留了 Query 的独立性,使注意力仍具有方向性。结合 GQA 和 MQA 时,缓存削减可达 87.5% 和 96.9%。弱变体 Q=K-V 因对称性不适合因果语言模型,且无缓存节省。该发现挑战了传统 QKV 三投影的必要性,对推理内存优化有重要意义。
论文TransformerKV 缓存注意力机制推理优化论文

推荐理由:做 LLM 推理优化的团队可以直接参考这个设计——砍掉一半 KV 缓存但几乎不损质量,值得在自家模型上试试。
原文
6月3日
12:49
12:49rohanpaul_ai@rohanpaul_ai
一篇新论文提出Self-Pruned Key-Value Attention方法,让大语言模型在长文本生成时只保留对后续token有用的历史键值对,从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分,只保留高分项,同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略,无需手工规则。实验表明,模型通常只保留10%到33.7%的旧键值对,性能接近全注意力,解码速度在长上下文场景下提升2.1到4.6倍。
论文KV缓存长上下文注意力机制模型压缩Self-Pruned Key-Value Attention

推荐理由:KV缓存是长上下文推理的瓶颈,这篇论文用自学习剪枝解决了内存爆炸问题,做LLM推理优化或长文本应用的开发者可以直接参考其方法。
原文
5月28日
10:40
10:40rohanpaul_ai@rohanpaul_ai
精选
研究发现,长时间运行的语言智能体如果定期暂停并整合记忆,性能会更好。当前Transformer模型随着上下文增长,注意力机制需要检查更多历史token,导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”:暂停推理,多次重读近期上下文,将有用信息写入固定大小的记忆层,然后清空短期注意力缓存。这样,模型在睡眠时进行额外计算,而正常推理仍保持单次前向传播的高效。实验表明,睡眠时间越长,模型在需要深度推理的复杂任务上表现越好,尤其当旧信息已不在注意力缓存中时。
论文智能体长上下文记忆整合注意力机制推理模型

推荐理由:长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注,它可能改变你处理长期记忆的方式。
原文
5月27日
01:37
01:37rohanpaul_ai@rohanpaul_ai
研究发现,长上下文AI模型并非被大量错误信息逐渐削弱,而是仅需10%的误导性段落就能造成近58%的性能损失,这种现象被称为“第一滴墨水效应”。误导信息之所以危险,是因为它们与问题高度相关但错误,在注意力机制中会挤占正确答案的空间。在128K token的Qwen2.5实验中,前10%的硬干扰项解释了97%的干扰压力。这意味着过滤文档时,移除坏内容不如缩短整个上下文有效。该研究对构建长上下文AI系统的开发者具有重要警示意义。
论文长上下文注意力机制误导信息第一滴墨水效应Qwen2.5

推荐理由:做长上下文AI应用或RAG系统的团队,这个发现会颠覆你对上下文管理的认知——不是堆更多文档就能提升效果,少而精才是关键,建议点开看看具体实验数据。
原文
5月18日
23:14
23:14AlphaSignal@AlphaSignalAI
精选72°
一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法,将神经网络权重分解为小型、单一用途的子组件,每个组件处理特定任务(如表情预测或性别识别)。该方法通过对抗性消融训练保留关键行为,并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型,被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流,甚至手动编辑特定行为并预测结果,使模型权重变得可解释。
论文可解释性VPD神经网络权重分解注意力机制

推荐理由:VPD 解决了神经网络可解释性长期以来的痛点——权重不可读,做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。
原文
精选全部日报登录