不使用框架实现卷积神经网络(Python)

本文介绍了作者在不使用任何框架的情况下,仅依赖numpy和cv2实现了卷积神经网络。通过参考他人成果并解决自身遇到的问题,如卷积层反向传播和参数初始化,成功训练并在MNIST数据集上达到了约98%的精度。卷积层的反向传播是理解的重点,作者分享了正向传播和反向传播的过程。最后,强调了参数初始化的重要性,使用glorot_uniform方法解决了训练不收敛的问题。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

不使用框架实现卷积神经网络(Python)

  之前为了对卷积神经网络有更深入的了解,结合别人的成果和自己的思考,在仅使用numpy和cv2的前提下,实现了深度卷积神经网络,并使用mnist数据集进行了训练和测试。不过速度真的非常慢,代码:https://github.com/WepLeo/cnn_without_frame

主要参考了这两个:

自己遇到的问题

  自己之前卡住的地方,有俩:一个是卷积层的反向传播,这个之前看博客推公式搞了好久;另一个是参数初始化,之前使用框架的时候没用心,导致卡了好久。怪自己之前考虑不深入。

卷积层的反向传播

  这一块,看好多人都是根据前后两层的关系(conv-conv, conv-pooling…),分不同情况讨论,一直不是很理解(我觉得每一层都是独立的啊,为啥还要分情况讨论,希望有人明示),只有刘建平的博客是将每一层独立开的,才看明白。卷积层的反向传播中,在计算梯度时,就是在找前向传播中,两两相乘的另一半,以及与该乘积相关的那次求和的结果。我们可以记住对应的另一半以及求和结果,也可以通过翻转的方式找到,但是要注意padding和步长的影响,下面是input_size=(6,6), kernel_size=(3,3),padding=1,步长为1时的正反向传播过程:

正向传播

正向传播
正向传播
正向传播

反向传播

反向传播
反向传播
反向传播
反向传播

初始化

  之前一直都是使用框架,参数的初始化都是默认的,就没在意,结果就想当然的使用正太分布初始化了,结果训练的时候死活都不收敛,而且loss总是NAN,打印每一层的输出,发现后面几层绝对值都特别大,最后才发现是参数初始化的值数量级大了的原因,使用glorot_uniform后分分钟就看到效果了,最后精度为98%左右。

总结

  写的非常粗糙,欢迎交流。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值