文章主要内容总结
本文聚焦梯度下降(GD)训练的两层ReLU和Leaky ReLU网络的隐式偏置问题,针对近正交训练数据展开理论与实验分析,核心结论如下:
- 隐式偏置核心特征:Leaky ReLU网络的权重矩阵稳定秩收敛于1,ReLU网络的稳定秩被常数上界限制(完全正交数据下约收敛于2);两类网络最终都会使所有训练数据的归一化间隔渐近相等。
- 收敛速率:权重范数以Θ(log(t))速率增长,训练损失以Θ(t⁻¹)速率收敛至零,优于此前平滑网络的O(t⁻¹/²)速率。
- 理论支撑:提出数据相关分解技术,结合激活模式分析、系数精细估计等方法,严格证明了上述结论;通过合成数据与MNIST数据集的实验验证了理论有效性。
创新点
- 首次明确非平滑网络的GD隐式偏置:突破此前仅针对平滑网络或梯度流(GF)的研究局限,首次给出ReLU和Leaky ReLU网络在GD训练下的稳定秩、间隔等关键指标的理论刻画。
- 提出数据相关分解技术:扩展信号-噪声分解方法,适配全连接网络场景,为非平滑激活函数的训练动态分析提供核心工具。
- 更优的收敛速率证明:将训练损失收敛速率从O(t⁻¹/²)提升至紧界Θ(t⁻¹),且揭示权重范数的对数增长规律。
- 激活模式与稳定秩的深度关联:发现Leaky ReLU网络训练

订阅专栏 解锁全文

203

被折叠的 条评论
为什么被折叠?



