门控机制(Gating)在深度学习中的角色正从简单的信息筛选向精细化、解耦化的方向发展,并在序列建模、异常检测、LLM推理等多个领域取得新突破。
- 近期主要进展包括:
- 解耦擦除与写入的门控线性注意力:NVIDIA 提出的 Gated DeltaNet-2 通过将 Delta 规则中的擦除和写入门控分离,实现了更灵活的记忆更新,在长程依赖任务上表现优异(NVIDIA 发布 Gated DeltaNet-2:线性注意力层解耦擦除与写入)。
- 稀有门控条件模块用于异常检测:RGFiLM 在海事异常检测中引入稀疏激活的门控机制,仅对稀有事件施加条件,提升了模型对异常模式的敏感性(RGFiLM:稀有门控条件模块提升海事异常检测)。
- 技能条件门控自蒸馏提升LLM推理:Skill-Conditioned Gated Self-Distillation 通过门控动态选择相关技能知识,使LLM在推理任务中更专注(Skill-Conditioned Gated Self-Distillation 提升 LLM 推理能力)。
- 门控在xLSTM子二次架构中的优势:xLSTM 在代码预训练和时序建模上优于其他子二次模型,其门控机制是关键因素(xLSTM 在子二次架构对比中胜出:代码预训练与时序建模表现最强)。
当前焦点在于:门控如何从二元开关进化为连续、可学习的条件控制,并与注意力、记忆等机制深度融合。例如,Gated DeltaNet-2 将擦除和写入解耦,是对传统门控功能(如 LSTM 遗忘门和输入门)的精细升级。未来观察点包括:门控在长序列效率与建模能力之间的权衡,以及其在多模态、持续学习等场景中的泛化能力。