全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月13日

21:35

21:35Anthropic: Transformer Circuits（资讯）

Anthropic 研究团队提出 Sparse Crosscoders，一种从 Transformer 模型中提取跨层一致特征的新方法。该方法通过稀疏编码器同时分析多个层的激活，能够识别出在不同层甚至不同模型中共享的特征。这为理解模型内部表示、比较不同模型之间的差异提供了工具。初步实验表明，Crosscoders 能有效发现跨层特征，并用于模型差异分析。

论文可解释性稀疏编码跨层特征模型差异 Transformer

推荐理由：想理解大模型内部机制的研究者有了新工具——Sparse Crosscoders 能跨层甚至跨模型提取一致特征，做可解释性分析的建议点开看看。

原文

21:35

21:35Anthropic: Transformer Circuits（资讯）

Kamath 等人提出了一种新方法，通过特征交互来解释 Transformer 中的注意力模式，并将这些信息整合到归因图中。该方法能够揭示注意力头如何基于输入特征之间的相互作用来分配权重，而不仅仅是基于单个特征。这为理解 Transformer 内部机制提供了更细粒度的视角，有助于模型可解释性研究。论文展示了该方法在多个任务上的应用，证明了其有效性。

论文 Transformer 可解释性注意力机制特征交互归因图

推荐理由：做 Transformer 可解释性研究的团队终于有了一个能深入分析注意力机制的工具，建议点开看看具体方法。

原文

21:35

21:35Anthropic: Transformer Circuits（资讯）

Anthropic 的 Transformer Circuits 团队发布了一篇新研究，通过构建一个简化的“玩具模型”来深入分析 Transformer 中的“干扰权重”现象。该研究揭示了注意力机制中不同信息流之间相互干扰的数学原理，解释了为什么模型在某些任务上会表现出反直觉的行为。关键发现是，干扰权重并非随机噪声，而是模型在有限容量下进行信息压缩和权衡的必然结果。这项工作为理解大语言模型的内部运作提供了新的理论视角，有助于未来设计更高效、更可控的模型架构。

论文 Transformer 可解释性干扰权重注意力机制 Anthropic

推荐理由：Anthropic 把 Transformer 内部的信息干扰机制拆解清楚了，做模型可解释性和架构优化的研究者可以直接参考这个玩具模型来验证自己的假设。

原文

21:35

21:35Anthropic: Transformer Circuits（资讯）

Anthropic 团队发布了 HeadVis，一个用于理解语言模型中注意力头行为的交互式可视化工具。该工具通过图形化展示注意力头的激活模式、注意力分布和功能角色，帮助研究人员和开发者更直观地分析模型内部机制。HeadVis 支持实时探索不同层和头的注意力模式，并能与模型输出关联，揭示特定头在生成过程中的作用。这一工具旨在降低模型可解释性的门槛，让更多人能够参与理解 Transformer 架构的内部运作。

论文注意力头可视化工具模型可解释性 Transformer Anthropic

推荐理由：做模型可解释性研究或想深入理解 Transformer 内部机制的开发者，HeadVis 提供了一个直观的交互式分析工具，值得一试。

原文

5月11日

22:18

NVIDIA AI@NVIDIAAI

70°

NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文，提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核，在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。

论文稀疏计算 GPU优化 Transformer NVIDIA SakanaAI

推荐理由：该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作，直接提升了大模型训练/推理效率，对部署大规模Transformer模型的企业而言有显著成本降低潜力。

原文