全部 AI 动态 · AI 热点

6月18日

10:57

10:57

arXiv cs.LG@Amiri Hayes, Belinda Li, Jacob Andreas

研究者提出用程序合成方法反向工程Transformer注意力头。他们先计算注意力矩阵，再让预训练语言模型生成Python程序来重现注意力模式。在GPT-2、TinyLlama-1.1B和Llama-3B上，不到1000个程序实现了平均IoU>75%。替换25%的注意力头仅导致16%的困惑度增加，并在下游问答基准上保持性能。

论文 GPT-2 TinyLlama Llama-3B 可解释性注意力机制

推荐理由：这篇论文用Python程序解释了注意力头怎么工作，还能直接用程序替换掉原始头，精度很高，想看模型内部机制的可以读。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？