2025_NIPS_Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-...

原创于 2026-06-18 11:15:00 发布 · 99 阅读

·

3

·

标签

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

1138 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

970 篇文章

订阅专栏

文章主要内容总结

本文聚焦梯度下降（GD）训练的两层ReLU和Leaky ReLU网络的隐式偏置问题，针对近正交训练数据展开理论与实验分析，核心结论如下：

隐式偏置核心特征：Leaky ReLU网络的权重矩阵稳定秩收敛于1，ReLU网络的稳定秩被常数上界限制（完全正交数据下约收敛于2）；两类网络最终都会使所有训练数据的归一化间隔渐近相等。
收敛速率：权重范数以Θ(log(t))速率增长，训练损失以Θ(t⁻¹)速率收敛至零，优于此前平滑网络的O(t⁻¹/²)速率。
理论支撑：提出数据相关分解技术，结合激活模式分析、系数精细估计等方法，严格证明了上述结论；通过合成数据与MNIST数据集的实验验证了理论有效性。

创新点

首次明确非平滑网络的GD隐式偏置：突破此前仅针对平滑网络或梯度流（GF）的研究局限，首次给出ReLU和Leaky ReLU网络在GD训练下的稳定秩、间隔等关键指标的理论刻画。
提出数据相关分解技术：扩展信号-噪声分解方法，适配全连接网络场景，为非平滑激活函数的训练动态分析提供核心工具。
更优的收敛速率证明：将训练损失收敛速率从O(t⁻¹/²)提升至紧界Θ(t⁻¹)，且揭示权重范数的对数增长规律。
激活模式与稳定秩的深度关联：发现Leaky ReLU网络训练

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。