21:35Anthropic: Transformer Circuits(资讯)Kamath 等人提出了一种新方法,通过特征交互来解释 Transformer 中的注意力模式,并将这些信息整合到归因图中。该方法能够揭示注意力头如何基于输入特征之间的相互作用来分配权重,而不仅仅是基于单个特征。这为理解 Transformer 内部机制提供了更细粒度的视角,有助于模型可解释性研究。论文展示了该方法在多个任务上的应用,证明了其有效性。论文Transformer可解释性注意力机制特征交互归因图推荐理由:做 Transformer 可解释性研究的团队终于有了一个能深入分析注意力机制的工具,建议点开看看具体方法。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Transformer Circuits 团队发布了一篇新研究,通过构建一个简化的“玩具模型”来深入分析 Transformer 中的“干扰权重”现象。该研究揭示了注意力机制中不同信息流之间相互干扰的数学原理,解释了为什么模型在某些任务上会表现出反直觉的行为。关键发现是,干扰权重并非随机噪声,而是模型在有限容量下进行信息压缩和权衡的必然结果。这项工作为理解大语言模型的内部运作提供了新的理论视角,有助于未来设计更高效、更可控的模型架构。论文Transformer可解释性干扰权重注意力机制Anthropic1 个信源在谈推荐理由:Anthropic 把 Transformer 内部的信息干扰机制拆解清楚了,做模型可解释性和架构优化的研究者可以直接参考这个玩具模型来验证自己的假设。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 团队发布了 HeadVis,一个用于理解语言模型中注意力头行为的交互式可视化工具。该工具通过图形化展示注意力头的激活模式、注意力分布和功能角色,帮助研究人员和开发者更直观地分析模型内部机制。HeadVis 支持实时探索不同层和头的注意力模式,并能与模型输出关联,揭示特定头在生成过程中的作用。这一工具旨在降低模型可解释性的门槛,让更多人能够参与理解 Transformer 架构的内部运作。论文注意力头可视化工具模型可解释性TransformerAnthropic推荐理由:做模型可解释性研究或想深入理解 Transformer 内部机制的开发者,HeadVis 提供了一个直观的交互式分析工具,值得一试。原文
19:12arXiv cs.AI@Alireza Nadali, Patrick Cooper, Ashutosh Trivedi, Alvaro Velasquez精选KV-Fold 是一种无需训练的长上下文推理协议,将键值(KV)缓存视为序列块上的左折叠累加器。模型在处理每个块时,基于累积的缓存进行条件处理,追加新生成的键和值,并将扩展后的缓存传递到下一步,重复这一单步更新过程。该方法在 Llama-3.1-8B 模型上的“大海捞针”基准测试中,在 152 次试验中实现了 100% 的精确匹配检索,覆盖 16K 到 128K 令牌的上下文和最多 511 层的链深度,且仅需单块 40GB GPU 内存。KV-Fold 的递归过程稳定,每步漂移短暂上升后饱和为平坦平台,对数值精度变化不敏感,跨块大小和模型家族表现一致。这项工作表明,冻结的预训练 Transformer 已经支持稳定的 KV 缓存递归形式,为无需架构更改或训练的长上下文推理提供了实用路径。论文长上下文推理KV缓存递归无需训练Transformer推荐理由:KV-Fold 用简单的左折叠思路解决了长上下文推理的内存和精度痛点,做 LLM 推理优化或长文档处理的团队可以直接在现有模型上尝试,无需额外训练。原文
17:06IT之家(博客/媒体)亚马逊设备负责人帕诺斯·帕奈回应了关于公司是否推出新款智能手机的传闻,表示“未必”会做传统手机,但未完全否认。此前有消息称亚马逊正在开发代号“Transformer”的AI设备,核心围绕Alexa Plus AI助手。帕奈暗示未来设备形态可能不是传统智能手机,而是AI硬件或新型终端。亚马逊对再次涉足手机市场保持谨慎,部分源于Fire Phone的失败经历。AI产品亚马逊AI硬件Alexa Plus智能手机Transformer推荐理由:亚马逊的AI硬件动向直接关系到Alexa生态的下一步,做智能家居或AI硬件的开发者值得关注——Transformer项目可能定义新的设备形态。原文
19:11arXiv: DeepSeek@Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia论文研究了连续潜在上下文(continuous latent context)如何帮助Transformer模型实现在线决策与学习。研究者构造了恒定深度的Transformer,通过少量潜在上下文令牌存储算法状态,成功实现了加权多数算法和Q-learning两种在线决策过程。实验表明,使用多课程目标训练的小型GPT-2风格模型,在长合成在线预测序列上表现优于Qwen-3-14B和DeepSeek-V3等更大更复杂的LLM。该工作为Transformer在需要长期自适应交互的场景中提供了一种简单有效的持续状态机制。论文在线学习Transformer潜在上下文Q-learning加权多数算法推荐理由:该工作通过理论构造和实验验证,说明了连续潜在上下文可作为Transformer在线学习的通用状态载体,为构建能长期自适应交互的轻量级AI系统提供了新思路。原文
22:18NVIDIA AI@NVIDIAAI70°NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文,提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核,在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。论文稀疏计算GPU优化TransformerNVIDIASakanaAI推荐理由:该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作,直接提升了大模型训练/推理效率,对部署大规模Transformer模型的企业而言有显著成本降低潜力。原文