Gated

§ 01综述

Gated 机制是深度学习中控制信息流动的关键技术，最早见于循环神经网络（如 LSTM 和 GRU），近年来在 Transformer 和线性注意力模型中广泛应用。它通过学习式的“门”来动态调节数据传递，提升模型对序列依赖的捕捉能力和计算效率。

Gated 近期进展

NVIDIA 发布 Gated DeltaNet-2（2026年5月24日）：该线性注意力层通过解耦擦除与写入门控，在保持线性复杂度的同时提升了长序列建模性能。实验显示在语言建模任务上困惑度降低约 5%，且训练速度比标准 Transformer 快 2 倍。原文标题

Skill-Conditioned Gated Self-Distillation（2026年5月论文）：一种针对 LLM 推理能力的训练方法，利用门控机制自适应选择技能知识，在 MATH 和 GSM8K 基准上提升准确率分别达 3.2% 和 4.1%。原文标题

xLSTM 在子二次架构对比中胜出（2026年6月论文）：xLSTM 通过门控记忆单元在代码预训练和时间序列建模上超越 Mamba 等线性注意力模型，在 Long Range Arena 任务中平均得分提高 6.7%。原文标题

重计算技巧使 SSM 的推测解码速度翻倍（2026年6月）：Tri Dao 提出的方法结合门控状态空间模型，利用重计算减少显存占用，使推测解码吞吐量提升 2 倍。原文标题

当前焦点与观察点

Gated 机制正从循环架构向 Transformer 和状态空间模型扩展。焦点之一是如何在保持门控灵活性的同时降低计算开销，如 NVIDIA 的 DeltaNet-2 和 xLSTM 均实现了线性复杂度的门控设计。另一趋势是将 Gated 与自蒸馏结合，以增强 LLM 的推理能力。争议点在于门控是否仍为有效手段：部分研究表明，简单门控（如 GLU）已足够，而过复杂的门控结构可能带来不必要的冗余。未来 Gated 或将在多模态和强化学习中进一步演化，但其核心地位短期内难以被替代。

§ 02相关报道10 条在档

§ 03邻近话题