深度学习之计算机视觉

最新推荐文章于 2025-12-29 14:43:37 发布

原创

最新推荐文章于 2025-12-29 14:43:37 发布 · 2.2k 阅读

标签

#深度学习 #计算机视觉 #人工智能

神经网络简介

全连接层和卷积层的根本区别在于权重在中间层中彼此连接的方式。图5.1描述了全连接层或线性层是如何工作的。

在计算机视觉中使用线性层或全连接层的最大挑战之一是它们丢失了所有空间信息，并且就全连接层使用的权重数量而言复杂度太高。例如，当将224像素的图像表示为平面阵列时，我们最终得到的数组长度是150,528(224x224x3通道)。当图像扁平化后，我们失去了所有的空间信息。让我们来看看CNN的化版本是什么样子的，如图5.2 所示。

所有卷积层所做的是在图像上施加一个称为滤波器的权重窗口。在详细理解卷积和其他构建模块之前，先为 MNIST 数据集构建一个简单但功能强大的图像分类器。一旦构建了这个分类器，我们将遍历网络的每个组件。构建图像分类器可分为以下步骤。

获取数据
创建验证数据集
从零开始构建CNN模型
训练和验证模型

MNIST——获取数据

MNIST数据集包含60,000个用于训练的0~9的手写数字图片，以及用于测试集的10,000张图片。PyTorch的torchvision库提供了一个MNIST数据集，它下载并以易于使用的格式提供数据。让我们用MNIST函数把数据集下载到本机，并封装成DataLoader。我们将使用torchvision变换将数据转换成PyTorch张量并进行归一化。下面的代码负责下载数据、把数据封装成 DataLoader以及数据的归一化处理（归一化处理的原因：加快模型的收敛速度、提高模型的精度、增强模型泛化能力）：

# transforms.Normalize((0.1307,), (0.3081))，其中均值（mean）为0.1307，标准差（std）为0.3081。
# 这些参数是在MNIST数据集上的统计结果，用于将图像数据归一化到[0, 1]范围内。
transformation = 
transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081))])
train_dataset = 
datasets.MNIST ('data/', train=True, transform=transformation, download=True)
test_dataset = 
datasets.MNIST('data/', train=False, transform=transformation, download=True)
train_loader =  
torch.utils.data.Dataloader(train_dataset, batch_size=32, shuffle=True)
test_loader = 
torch.utils.data.Dataloader(test_dataset, batch_size=32, shuffle=True)