别再死记硬背DenseNet结构了！用PyTorch代码逐层打印，手把手带你理解DenseNet-121的连接奥秘

最新推荐文章于 2026-06-24 10:23:40 发布

原创

最新推荐文章于 2026-06-24 10:23:40 发布 · 495 阅读

标签

#DenseNet #PyTorch #深度学习 #计算机视觉

用PyTorch代码逐层拆解DenseNet-121：从理论到实践的全景指南

在深度学习领域，DenseNet以其独特的密集连接机制脱颖而出，成为计算机视觉任务中的重要架构。然而，许多学习者在初次接触DenseNet时，往往被其复杂的连接方式和层间关系所困扰。本文将带你通过PyTorch代码逐层剖析DenseNet-121，用工程师的视角理解这一经典网络的内部运作机制。

1. DenseNet基础与环境准备

DenseNet（Densely Connected Convolutional Networks）的核心思想在于每一层都与后续所有层直接连接，这种密集连接模式带来了几个显著优势：

特征重用：通过跨层连接，网络能够更有效地利用前面各层提取的特征
梯度流动改善：缩短了梯度传播路径，缓解了深层网络中的梯度消失问题
参数效率：相比传统CNN，达到相同性能所需的参数量更少

要开始我们的探索之旅，首先需要搭建实验环境：

import torch
import torchvision

# 检查PyTorch版本和CUDA可用性
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA可用: {torch.cuda.is_available()}")

# 加载预训练的DenseNet-121模型
model = torchvision.models.densenet121(pretrained=True)
model.eval()  # 设置为评估模式

关键组件说明：

torchvision.models.densenet121：PyTorch官方实现的DenseNet-121模型
pretrained=True：加载在ImageNet上预训练的权重
model.eval()：将模型设置为评估模式，这会关闭dropout和batch normalization的统计量更新

提示：在实际实验中，如果GPU可用，可以使用model.cuda()将模型转移到GPU上以获得更快的运算速度。

2. DenseNet-121整体架构解析

DenseNet-121的名称中的"121"并非随意而来，它代表了网络中具有可训练参数层的总数。让我们先来看一下模型的整体结构：

print(model)

执行上述代码会输出完整的模型结构，主要包括以下几个部分：

初始卷积层：7x7卷积，stride=2，后接BN和ReLU，然后是一个3x3最大池化
四个DenseBlock：每个Block包含多个DenseLayer
三个Transition层：位于DenseBlock之间，用于下采样和通道数调整
分类头：全局平均池化 + 全连接层

DenseNet-121层数计算：

初始卷积和池化：2层
四个DenseBlock：(6 + 12 + 24 + 16) × 2 = 116层（每个DenseLayer包含两个卷积）
三个Transition层：3层
总计：2 + 116 + 3 = 121层

3. 逐层拆解DenseBlock的奥秘

DenseNet的核心创新在于其DenseBlock设计，让我们深入探究其实现细节。以第一个DenseBlock为例：

# 获取第一个DenseBlock
denseblock1 = model.features.denseblock1

# 打印DenseBlock中的层信息
for name, layer in denseblock1.named_children():
    print(f"层名称: {name}")
    print(f"层结构: {layer}")

每个DenseLayer实际上由以下操作组成：