卷积神经网络:学习率、权重衰减、动量

博客介绍了深度学习中的超参数,包括权重衰减、学习率和动量。权重衰减可防止过拟合,使参数等比缩小;学习率控制梯度下降速度,需合理调整;动量能根据梯度方向调整参数更新速度,利于网络收敛。

学习率、权重衰减、动量被称为超参数,因为他们不是由网络训练而得到的参数

权重衰减

C_{0}代表原始的代价函数,后面那一项就是L2正则化项,λ就是权重衰减项

作用防止过拟合

过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大

效果

权重衰减项对Wi的导数正比于Wi的值,因此所有Wi在每次迭代中会等比缩小

 

学习率

作用控制梯度下降的速度

注意点:如果学习速率过小,则会导致收敛速度很慢。如果学习速率过大,那么其会阻碍收敛,即在极值点附近会振荡,因此通常会控制学习率使其在多次迭代后衰减,使得网络可以顺利收敛

 

动量(Momentum)

这里写图片描述

v表示每次更新的变化量,上一个时刻的变化量乘以的系数γ,就是动量添加的部分。

作用:

      对于那些当前的梯度方向与上一次梯度方向相同的参数,那么进行加强,即这些方向上更快了;对于那些当前的梯度方向与上一次梯度方向不同的参数,那么进行削减,即在这些方向上减慢了。

原理:

从公式上看,相当于每次更新的时候,都会考虑上次的更新值,如果方向一样就变得越来越,如果方向不同,就会相互抵消,以便收敛

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值