ReLU(Rectified Linear Unit)作为深度学习中最常用的激活函数之一,近期研究继续深化对其理论特性、应用局限及改进方向的理解。当前焦点集中在ReLU的鲁棒回归、与稀疏性及异常值的互动,以及在新架构中的有效性。
- 近期主要进展
- ReLU鲁棒回归的查询复杂度近最优:一项研究提出利用查询实现通用ReLU函数的鲁棒回归,其查询复杂度接近理论下限,为处理噪声数据提供了高效方法。(用查询实现通用ReLU的鲁棒回归,查询复杂度近最优)
- 激活异常值与稀疏自编码器特征死亡的关系:研究发现ReLU激活过程中的异常值与稀疏自编码器中的特征死亡现象密切相关,揭示了激活函数特性对模型可解释性的影响。(激活异常值与稀疏自编码器特征死亡的关系研究)
- ReLU在轻量防御模型中的有效性:在针对机器学习的网络入侵检测系统中,采用更浅网络、更少特征配合ReLU激活,能在无防御情况下有效对抗攻击,说明ReLU在资源受限场景仍有竞争力。(更浅的网络+更少的特征+ReLU:无防御对抗攻击的ML-NIDS)
- 持续学习中动态等距性与ReLU可塑性:研究提出动态等距机制,通过保持网络可塑性(与ReLU的梯度特性相关)来缓解灾难性遗忘,为持续学习提供新思路。(动态等距性:持续学习中保持网络可塑性的新机制)
当前焦点 / 未来观察点
研究者正从理论层面追求ReLU回归问题的计算最优性,同时关注其在实际部署中的副作用(如特征死亡和异常值敏感度)。此外,ReLU在稀疏模型(如MoE)和轻量化网络中的表现持续被验证。未来可能的方向包括:结合ReLU的动态机制改进持续学习,以及利用查询复杂度下界指导更高效的鲁棒训练算法。