10:57arXiv cs.LG@Amiri Hayes, Belinda Li, Jacob Andreas研究者提出用程序合成方法反向工程Transformer注意力头。他们先计算注意力矩阵,再让预训练语言模型生成Python程序来重现注意力模式。在GPT-2、TinyLlama-1.1B和Llama-3B上,不到1000个程序实现了平均IoU>75%。替换25%的注意力头仅导致16%的困惑度增加,并在下游问答基准上保持性能。论文GPT-2TinyLlamaLlama-3B可解释性注意力机制推荐理由:这篇论文用Python程序解释了注意力头怎么工作,还能直接用程序替换掉原始头,精度很高,想看模型内部机制的可以读。原文