深度学习：开山之作AlexNet论文详解

最新推荐文章于 2026-05-19 15:15:16 发布

原创

最新推荐文章于 2026-05-19 15:15:16 发布 · 5.3k 阅读

标签

#神经网络

本文深入解析了AlexNet卷积神经网络的设计理念与关键技术，包括ReLU激活函数、GPU并行训练、局部响应归一化及数据增强等方法。通过这些技术，AlexNet在ImageNet竞赛中取得了突破性成绩。

AlexNet是一个卷积神经网络，由亚历克斯·克里泽夫斯基（Alex Krizhevsky）设计，与伊尔亚‧苏茨克维（Ilya Sutskever）和克里泽夫斯基的博士导师杰弗里·辛顿共同发表，而辛顿最初抵制他的学生的想法。

AlexNet参加了2012年9月30日举行的ImageNet大规模视觉识别挑战赛，达到最低的15.3%的Top-5错误率，比第二名低10.8个百分点。原论文的主要结论是，模型的深度对于提高性能至关重要，AlexNet的计算成本很高，但因在训练过程中使用了图形处理器（GPU）而使得计算具有可行性。

交叠池化 (Overlapping Pooling)

问题背景

本文在如下背景下展开研究：

当前图像分类任务主要是通过传统机器学习的方法进行的，模型容量小，且不易于实际使用，容易过拟合
实际目标多样性丰富，标记好的数据集的样本数越来越大，需要更高容量的模型进行学习。而卷积神经网络可以通过调节深度和宽度来控制模型的容量，且充分利用了自然图像的局部空间相关性的特性
GPUs 等硬件以及高度优化的 2-D 卷积运算的实现发展成熟，以足够强大，可用于训练较大的 CNNs，结合如今的大数据集，不用过分担心过拟合

本文主要贡献

本文的模型，即 AlexNet，其由多伦多大学，Geoff Hinton 实验室设计，夺得了 2012 年 ImageNet ILSVRC 比赛的冠军，且其 top-5 错误率远低于第二名，分别为 15.3% 和 26.2%。

AlexNet 在深度学习发展史上的历史意义远大于其模型的影响。在此之前，深度学习已经沉寂了很久。在此之后，深度学习重新迎来春天，卷积神经网络也成为计算机视觉的核心算法模型。

本文的主要内容有：

使用 ReLU 激活函数加速收敛
使用 GPU 并行，加速训练。也为之后的分组卷积（group convolution）理论奠定基础。
提出局部响应归一化（Local Response Normalization, LRN）增加泛化特性 (虽然被后人证明无效 )
使用交叠池化 (Overlapping Pooling) 防止过拟合
提出Dropout，数据增强等手段防止过拟合

ImageNet 数据集

ImageNet 和 ILSVRC

（截至论文发表时）ImageNet 数据集包含 15 million (1500 万) 张标记好的高分辨率的图像，其包含仅 22000 个类别。从 2010 年始，作为 Pascal Visual Object Challenge 的一部分，一个新的年度比赛 ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 拉开帷幕。

ILSVRC 数据集

ILSVRC 使用 ImageNet 数据集的子集，包含 1000 类目标，每类目标约 1000 张图片，共 1200 万张训练图像，50000 张验证图像，15000 张测试图像。

ILSVRC-2010 是唯一一届公开测试集 label 的ILSVRC，因此我们的实验测试在该数据集上进行。评判标准为 top-1 和 top-5 错误率，分别表示预测类别正确，以及正确值位于预测概率最高的 5 个类别时的错误率。

本文中对图像的预处理

由于 ImageNet 包含多种分辨率，而我们的模型要求输入维度固定，因此，我们对图像进行处理，使之固定为 $256*256$ 。具体做法是，对于给定的图像，我们先将其进行缩放，使其短边尺寸为 256，然后进行中心裁剪，得到输入图像。除了在每个像素上，减去整个数据集对应像素上的均值之外，我们并未对输入图像进行其他预处理。