Top-K 作为一种在深度学习中广泛使用的策略,近期在稀疏自编码器(SAE)和语言模型解码等领域引发了新的关注。背景上,Top-K 通常用于通过只保留概率最高的 K 个输出或激活来控制稀疏性,但研究发现这种硬性截断可能带来副作用。
- 近期主要进展包括:
- 在稀疏自编码器的研究中,"激活异常值与稀疏自编码器特征死亡的关系研究" 揭示了 Top-K 激活可能导致“特征死亡”问题——异常高的激活值在 Top-K 筛选中反复被保留,使得其他特征难以被激活,从而削弱了 SAE 的表达能力。
- 针对语言模型采样,"WCS指标揭示LLM采样机制如何压制词汇多样性" 发现 Top-K 采样(仅从概率最高的 K 个词中采样)会破坏词汇多样性,导致生成内容重复且缺乏创造性。
- 在图像重建任务中,"EmambaIR:事件引导图像重建的高效状态空间模型" 采用了 Top-K 选择策略来聚焦关键事件特征,但尚未讨论其潜在过拟合问题。
- 针对 SAE 的改进,"SoftSAE:动态Top-K选择的自适应稀疏自编码器" 提出了一种软性 Top-K 机制,通过动态调整 K 值或使用软阈值来缓解硬性截断带来的信息损失。
当前焦点集中在 Top-K 的硬性选择是否过于粗暴:一方面,它简单有效,适用于计算资源有限的场景;另一方面,它在 SAE 中可能抑制特征多样性,在语言采样中可能降低文本丰富度。未来值得观察的方向是动态或自适应 Top-K 方法(如 SoftSAE)是否能平衡效率与表达力,以及在其他领域(如推荐系统、强化学习)中类似问题的普遍性。