2025_NIPS_Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-...

文章主要内容总结

本文聚焦梯度下降(GD)训练的两层ReLU和Leaky ReLU网络的隐式偏置问题,针对近正交训练数据展开理论与实验分析,核心结论如下:

  1. 隐式偏置核心特征:Leaky ReLU网络的权重矩阵稳定秩收敛于1,ReLU网络的稳定秩被常数上界限制(完全正交数据下约收敛于2);两类网络最终都会使所有训练数据的归一化间隔渐近相等。
  2. 收敛速率:权重范数以Θ(log(t))速率增长,训练损失以Θ(t⁻¹)速率收敛至零,优于此前平滑网络的O(t⁻¹/²)速率。
  3. 理论支撑:提出数据相关分解技术,结合激活模式分析、系数精细估计等方法,严格证明了上述结论;通过合成数据与MNIST数据集的实验验证了理论有效性。

创新点

  1. 首次明确非平滑网络的GD隐式偏置:突破此前仅针对平滑网络或梯度流(GF)的研究局限,首次给出ReLU和Leaky ReLU网络在GD训练下的稳定秩、间隔等关键指标的理论刻画。
  2. 提出数据相关分解技术:扩展信号-噪声分解方法,适配全连接网络场景,为非平滑激活函数的训练动态分析提供核心工具。
  3. 更优的收敛速率证明:将训练损失收敛速率从O(t⁻¹/²)提升至紧界Θ(t⁻¹),且揭示权重范数的对数增长规律。
  4. 激活模式与稳定秩的深度关联:发现Leaky ReLU网络训练
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值