23:14AlphaSignal@AlphaSignalAI精选72°一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法,将神经网络权重分解为小型、单一用途的子组件,每个组件处理特定任务(如表情预测或性别识别)。该方法通过对抗性消融训练保留关键行为,并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型,被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流,甚至手动编辑特定行为并预测结果,使模型权重变得可解释。论文可解释性VPD神经网络权重分解注意力机制推荐理由:VPD 解决了神经网络可解释性长期以来的痛点——权重不可读,做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。原文