不使用框架实现卷积神经网络(Python)

最新推荐文章于 2026-06-12 07:36:09 发布

原创最新推荐文章于 2026-06-12 07:36:09 发布 · 3.6k 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #神经网络

卷积神经网络专栏收录该内容

1 篇文章

订阅专栏

本文介绍了作者在不使用任何框架的情况下，仅依赖numpy和cv2实现了卷积神经网络。通过参考他人成果并解决自身遇到的问题，如卷积层反向传播和参数初始化，成功训练并在MNIST数据集上达到了约98%的精度。卷积层的反向传播是理解的重点，作者分享了正向传播和反向传播的过程。最后，强调了参数初始化的重要性，使用glorot_uniform方法解决了训练不收敛的问题。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

不使用框架实现卷积神经网络(Python)

之前为了对卷积神经网络有更深入的了解，结合别人的成果和自己的思考，在仅使用numpy和cv2的前提下，实现了深度卷积神经网络，并使用mnist数据集进行了训练和测试。不过速度真的非常慢，代码：https://github.com/WepLeo/cnn_without_frame。

主要参考了这两个：

https://github.com/hsmyy/zhihuzhuanlan
刘建平的博客:http://www.cnblogs.com/pinard/p/6494810.html

自己遇到的问题

自己之前卡住的地方，有俩：一个是卷积层的反向传播，这个之前看博客推公式搞了好久；另一个是参数初始化，之前使用框架的时候没用心，导致卡了好久。怪自己之前考虑不深入。

卷积层的反向传播

这一块，看好多人都是根据前后两层的关系（conv-conv, conv-pooling…），分不同情况讨论，一直不是很理解（我觉得每一层都是独立的啊，为啥还要分情况讨论，希望有人明示），只有刘建平的博客是将每一层独立开的，才看明白。卷积层的反向传播中，在计算梯度时，就是在找前向传播中，两两相乘的另一半，以及与该乘积相关的那次求和的结果。我们可以记住对应的另一半以及求和结果，也可以通过翻转的方式找到，但是要注意padding和步长的影响，下面是input_size=(6,6), kernel_size=(3,3),padding=1,步长为1时的正反向传播过程：

正向传播

反向传播

初始化

之前一直都是使用框架，参数的初始化都是默认的，就没在意，结果就想当然的使用正太分布初始化了，结果训练的时候死活都不收敛，而且loss总是NAN，打印每一层的输出，发现后面几层绝对值都特别大，最后才发现是参数初始化的值数量级大了的原因，使用glorot_uniform后分分钟就看到效果了，最后精度为98%左右。