优化算法(一)SGD算法实现

本文介绍了SGD(随机梯度下降)算法,对比了它与GD(梯度下降)的区别。SGD每次迭代仅用一个样本更新参数,以减少cost值。在实践中,可能会遇到cost值停滞或过拟合问题。解决方案包括调整参数初始化、减小学习因子或增加网络复杂度。代码演示和优化建议使理解更为深入。

SGD随机梯度下降算法,和最常用的GD相比,GD每一次迭代都是所有样本都一起进行计算,而SGD是每一次迭代中每个样本分别进行计算,梯度算法的最终目标是减少cost值,训练出最优的参数值,GD每一次迭代都让所有样本去优化参数,一次迭代进行一次优化,而SGD一次只让一个样本去优化参数。

 

贴一下代码:

#SGD(w初始化使用 2/sqrt(l-1))
def SGD_model(X,Y,layer_dims,iter_times,alphs):
    costs = []
    m = X.shape[1]
    n = X.shape[0]
    np.random.seed(3)
    parameters = initialize_parameters(layer_dims)
    for i in range(0,iter_times):
        for j in range(0,m):
            A,caches=forward_propagation(X[:,j].reshape(n,1),parameters)
            cost=cpmpute_cost(A,Y[:,j].reshape(1,1))
            grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters)
            parameters=update_parameters(parameters,grads,alphs)
            costs.append(cost)
        if i%100 == 0:
            print(cost)
    return costs,parameters

 

测试一下:

n=train_data_finalX.shape[0]
layer_dims=[n,20,7,5,1]
costs,parameters=SGD_model(train_data_finalX,train_data_finalY,layer_dims,500,0.0003)
 
y_pred_train=predict(train_data_finalX,parameters)
print('train acc is ',np.mean(y_pred_train == train_data_finalY)*100,'%')    
 
y_pred_test=predict(test_data_finalX,parameters)
print('test acc is ',np.mean(y_pred_test == test_data_finalY)*100,'%')
#可以看到cost减低的是很快的,这里打印出来的cost并不是每一次的cost值,只是挑着打印了几个
#这个cost也不是所有样本cost值加起来得到的,其实还是单个样本的cost值
#过拟合现象还是很严重的

0.6967667264512503
0.3580429544797275
0.1366511629971142
0.013014664339787691
0.005059855441099931
train acc is  100.0 %
test acc is  84.0 %

 

 

特别要注意的是,可能会遇到cost值不降低,或者降低到一定值以后就不变了,这种情况预测值得到的可能都是0,可以试试这几个解决办法:

  1. w参数初始化,不要选择在random以后乘以0.01,如果激活函数使用的是tanh函数,使用(1/sqrt(上一层单元数)),如果使用的是relu则试试(2/sqrt(上一层单元数)),参数初始化对结果有很大的影响力度。
  2. 学习因子设置的小一点
  3. 如果出现严重的过拟合现象,可以试试增加隐藏层,或者隐藏层单元数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值