Ultralytics：解读Conv模块-CSDN博客

前言

由于本人水平有限，难免出现错漏，敬请批评改正。
更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）
PaddleOCR：Win10上安装使用PPOCRLabel标注工具
目标检测：使用自己的数据集微调DEIMv2进行物体检测
图像分割：PyTorch从零开始实现SegFormer语义分割
图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
图像生成：PyTorch从零开始实现一个简单的扩散模型
Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测
Anomalib：在Linux服务器上安装使用Anomalib 2.1.0
人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理
人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）
隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）
在线机的Python环境迁移到离线机上
Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
Ultralytics：使用 YOLO11 进行速度估计
Ultralytics：使用 YOLO11 进行物体追踪
Ultralytics：使用 YOLO11 进行物体计数
Ultralytics：使用 YOLO11 进行目标打码
人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理
人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割
人工智能混合编程实践：C++调用Python ONNX进行图像超分重建
人工智能混合编程实践：C++调用Python AgentOCR进行文本识别
通过计算实例简单地理解PatchCore异常检测
Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型
基于DETR的人脸伪装检测
YOLOv7训练自己的数据集（口罩检测）
YOLOv8训练自己的数据集（足球检测）
YOLOv5：TensorRT加速YOLOv5模型推理
YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU
玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测
YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制
YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层
Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）
使用Kaggle GPU资源免费体验Stable Diffusion开源项目
Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）
Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）

前提条件

熟悉Python、Pytorch

实验环境

Package                  Version
------------------------ ------------
Python                   3.11.8
absl-py                  2.4.0
accelerate               1.13.0
annotated-doc            0.0.4
anyio                    4.13.0
calflops                 0.3.2
certifi                  2026.4.22
charset-normalizer       3.4.7
click                    8.3.3
colorama                 0.4.6
contourpy                1.3.3
cycler                   0.12.1
filelock                 3.29.0
flatbuffers              25.12.19
fonttools                4.62.1
fsspec                   2026.4.0
grpcio                   1.80.0
h11                      0.16.0
hf-xet                   1.5.0
httpcore                 1.0.9
httpx                    0.28.1
huggingface_hub          1.14.0
idna                     3.15
Jinja2                   3.1.6
kiwisolver               1.5.0
Markdown                 3.10.2
markdown-it-py           4.2.0
MarkupSafe               3.0.3
matplotlib               3.10.9
mdurl                    0.1.2
ml_dtypes                0.5.0
mpmath                   1.3.0
networkx                 3.6.1
numpy                    1.26.4
nvidia-cublas-cu12       12.8.3.14
nvidia-cuda-cupti-cu12   12.8.57
nvidia-cuda-nvrtc-cu12   12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12        9.7.1.26
nvidia-cufft-cu12        11.3.3.41
nvidia-cufile-cu12       1.13.0.11
nvidia-curand-cu12       10.3.9.55
nvidia-cusolver-cu12     11.7.2.55
nvidia-cusparse-cu12     12.5.7.53
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.26.2
nvidia-nvjitlink-cu12    12.8.61
nvidia-nvtx-cu12         12.8.55
onnx                     1.19.0
onnxruntime-gpu          1.26.0
onnxslim                 0.1.94
opencv-python            4.6.0.66
packaging                26.2
pillow                   12.2.0
pip                      24.0
polars                   1.40.1
polars-runtime-32        1.40.1
protobuf                 7.34.1
psutil                   7.2.2
pycocotools              2.0.11
Pygments                 2.20.0
pyparsing                3.3.2
python-dateutil          2.9.0.post0
PyYAML                   6.0.3
regex                    2026.5.9
requests                 2.34.1
rich                     15.0.0
safetensors              0.7.0
scipy                    1.16.0
setuptools               65.5.0
shellingham              1.5.4
six                      1.17.0
sympy                    1.14.0
tabulate                 0.10.0
tensorboard              2.20.0
tensorboard-data-server  0.7.2
tokenizers               0.22.2
torch                    2.7.1+cu128
torchaudio               2.7.1+cu128
torchvision              0.22.1+cu128
tqdm                     4.67.3
transformers             5.8.1
triton                   3.3.1
typer                    0.25.1
typing_extensions        4.15.0
ultralytics              8.4.58
ultralytics-thop         2.0.19
urllib3                  2.7.0
Werkzeug                 3.1.8

Conv

import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn

def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p


class Conv(nn.Module):
    """Standard convolution module with batch normalization and activation.

    Attributes:
        conv (nn.Conv2d): Convolutional layer.
        bn (nn.BatchNorm2d): Batch normalization layer.
        act (nn.Module): Activation function layer.
        default_act (nn.Module): Default activation function (SiLU).
    """

    default_act = nn.SiLU()  # default activation

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given parameters.

        Args:
            c1 (int): Number of input channels.
            c2 (int): Number of output channels.
            k (int): Kernel size.
            s (int): Stride.
            p (int, optional): Padding.
            g (int): Groups.
            d (int): Dilation.
            act (bool | nn.Module): Activation function.
        """
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()

    def forward(self, x):
        """Apply convolution, batch normalization and activation to input tensor.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        """Apply convolution and activation without batch normalization.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.conv(x))

使用示例

在这里插入图片描述

if __name__ == '__main__':
    # 1. 读取图像（请将路径改为您自己的图片）
    img_path = "cat_640x640.png"  # 或者使用绝对路径
    img_bgr = cv2.imread(img_path)
    if img_bgr is None:
        raise FileNotFoundError(f"图片 {img_path} 不存在！请检查路径。")

    # 2. 转换为 RGB，并转为 PyTorch 张量 (H,W,C) -> (C,H,W) -> (1,C,H,W)
    img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
    img_tensor = torch.from_numpy(img_rgb).float()          # (H, W, C)
    img_tensor = img_tensor.permute(2, 0, 1).unsqueeze(0)   # (1, C, H, W)

    # 可选：归一化到 [0,1] 便于显示（卷积本身不需要）
    # img_tensor = img_tensor / 255.0

    # 3. 创建卷积层：输入3通道，输出16通道（为了可视化更丰富），核3×3，步长2
    conv_layer = Conv(c1=3, c2=16, k=3, s=2)

    # 4. 前向传播（标准模式）
    with torch.no_grad():  # 推理模式，不计算梯度
        out = conv_layer(img_tensor)
    print("标准 forward 输出形状:", out.shape)   # 实际输出: torch.Size([1, 16, 320, 320])

    # 5. 可视化输出特征图（以第一个通道为例）
    # 将张量转为 numpy，并去掉 batch 维
    feat_map = out[0, 0, :, :].cpu().numpy()   # 取第一个通道，形状 (320, 320)

    # 归一化到 0~255 以便显示
    feat_map = (feat_map - feat_map.min()) / (feat_map.max() - feat_map.min() + 1e-8)
    feat_map = (feat_map * 255).astype(np.uint8)

    # 使用 matplotlib 显示原图和特征图
    plt.figure(figsize=(10, 5))

    plt.subplot(1, 2, 1)
    plt.imshow(cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB))  # 显示原图（RGB）
    plt.title("Original Image")
    plt.axis("off")

    plt.subplot(1, 2, 2)
    plt.imshow(feat_map, cmap='gray')
    plt.title("Conv Output (Channel 0)")
    plt.axis("off")

    plt.tight_layout()
    plt.savefig("conv_output_visualization.png", dpi=150)  # 保存图片
    plt.show()

在这里插入图片描述

流程示意图

在这里插入图片描述

代码解读

`autopad(k, p=None, d=1)` 函数

功能

自动计算卷积操作的填充量（padding），使得在步长 s=1 时，输出特征图的空间尺寸与输入保持一致（即 “same” 填充）。若指定了 p，则直接使用该填充值。

参数

k：卷积核大小（int 或 list，如 [height, width]）。
p：手动指定的填充值，若为 None 则自动计算。
d：膨胀系数（dilation rate），默认 1。

逻辑

若 d > 1，先计算实际卷积核尺寸：
- 若 k 为整数：k_eff = d * (k - 1) + 1
- 若 k 为列表：分别对每个维度计算 k_eff。
  （膨胀卷积的实际核大小是 d*(k-1)+1，因为每两个原始核元素之间插入 d-1 个空格。）
若 p 为 None，则取 p = k_eff // 2（整数除法），即每侧填充为核大小的一半（向下取整）。

返回值

填充值（整数或列表），可直接用于 nn.Conv2d 的 padding 参数。

`Conv` 类

功能

标准卷积模块，顺序执行：卷积 → 批归一化 → 激活函数。提供两种前向传播方式：

forward：完整流程（含 BN），用于训练或常规推理。
forward_fuse：跳过 BN（仅卷积 + 激活），用于推理加速（需提前将 BN 参数融合进卷积权重）。

关键属性

self.conv：nn.Conv2d 实例，bias=False（因为后续接 BN，偏置冗余）。
self.bn：nn.BatchNorm2d，对卷积输出进行归一化。
self.act：激活函数层，默认为 SiLU（Swish）。

初始化参数

参数	类型	说明
`c1`	int	输入通道数
`c2`	int	输出通道数
`k`	int / tuple	卷积核大小（默认 1）
`s`	int / tuple	步长（默认 1）
`p`	int / tuple / None	填充（若为 `None`，由 `autopad` 自动计算）
`g`	int	分组卷积的组数（默认 1）
`d`	int	膨胀率（默认 1）
`act`	bool / nn.Module	激活函数：`True` 表示使用默认 SiLU，`False` 表示无激活，也可传入自定义激活模块

前向方法

forward(x)：return self.act(self.bn(self.conv(x)))
forward_fuse(x)：return self.act(self.conv(x))（无 BN）

输出尺寸计算公式

对于卷积层，给定输入尺寸 $H_{in} \times W_{in}$ ，输出尺寸 $H_{out} \times W_{out}$ 为：

$H_{out} = \left\lfloor \frac{H_{in} + 2p - d \cdot (k-1) - 1}{s} \right\rfloor + 1$
$W_{out} = \left\lfloor \frac{W_{in} + 2p - d \cdot (k-1) - 1}{s} \right\rfloor + 1$

若卷积核为方形（ $k_h = k_w = k$ ），则上式可统一。
若为非对称核，需分别代入对应维度的 $k_h, k_w$ 。
膨胀率 $d$ 影响实际感受野，有效核大小 $k_{eff} = d(k-1) + 1$ ，因此公式也可写作
$H_{out} = \left\lfloor \frac{H_{in} + 2p - k_{eff}}{s} \right\rfloor + 1$ 。

`autopad` 的填充策略

当未指定 p 时，autopad 令 $p = k_{eff} // 2$ 。
此时，若步长 $s = 1$ ，则：
$H_{out} = \left\lfloor \frac{H_{in} + 2\cdot\lfloor k_{eff}/2 \rfloor - k_{eff}}{1} \right\rfloor + 1 = H_{in}$
（因为 $2\cdot\lfloor k_{eff}/2 \rfloor$ 与 $k_{eff}$ 相等或相差 1，但减后向下取整再 +1 仍得原尺寸。）
因此，当 s=1 时，输出尺寸严格等于输入尺寸。

若 $s > 1$ ，输出尺寸将缩小约 $1/ s$ 倍（实际为向下取整后加 1）。

示例计算

输入图像 640×640，c1=3, c2=16, k=3, s=2, d=1, p=None。
autopad(3, None, 1) 得到 p = 3//2 = 1。
代入公式：
$H_{out} = \lfloor (640 + 2\times1 - 3) / 2 \rfloor + 1 = \lfloor 639/2 \rfloor + 1 = 319 + 1 = 320$ 。
因此输出形状为 [1, 16, 320, 320]（batch=1）。

注意事项与扩展

1. 输出尺寸的误区

当 s=2 时，输出尺寸约为输入的一半（例如 640→320），若期望保持尺寸，请设置 s=1。

2. 特征图可视化

卷积输出有多个通道（如本例 16 个），每个通道代表一种特征响应。可视化时通常取单通道或若干通道并归一化到 [0,255] 显示。
在远程服务器无图形界面的环境下，应使用 matplotlib.use('Agg') 并保存为图片文件，避免调用 plt.show()。

3. `forward_fuse` 的使用场景

推理阶段可通过 torch.nn.utils.fuse_conv_bn_eval 将 BN 参数融合进卷积权重，然后调用 forward_fuse 跳过 BN，减少计算量，提升速度。

4. 依赖库

torch, numpy, opencv-python（用于图像读取），matplotlib（用于可视化）。

5. 在 YOLOv8 中的作用

Conv 类是 YOLOv8 网络中的基础卷积单元，配置文件中出现的 Conv 即对应此实现。更高级的 C2f、SPPF 等模块均在此基础上构建。

参考文献

[1] https://docs.ultralytics.com/
[2] https://github.com/ultralytics/ultralytics.git

由于本人水平有限，难免出现错漏，敬请批评改正。
更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）
PaddleOCR：Win10上安装使用PPOCRLabel标注工具
目标检测：使用自己的数据集微调DEIMv2进行物体检测
图像分割：PyTorch从零开始实现SegFormer语义分割
图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
图像生成：PyTorch从零开始实现一个简单的扩散模型
Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测
Anomalib：在Linux服务器上安装使用Anomalib 2.1.0
人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理
人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）
隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）
在线机的Python环境迁移到离线机上
Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
Ultralytics：使用 YOLO11 进行速度估计
Ultralytics：使用 YOLO11 进行物体追踪
Ultralytics：使用 YOLO11 进行物体计数
Ultralytics：使用 YOLO11 进行目标打码
人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理
人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割
人工智能混合编程实践：C++调用Python ONNX进行图像超分重建
人工智能混合编程实践：C++调用Python AgentOCR进行文本识别
通过计算实例简单地理解PatchCore异常检测
Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型
基于DETR的人脸伪装检测
YOLOv7训练自己的数据集（口罩检测）
YOLOv8训练自己的数据集（足球检测）
YOLOv5：TensorRT加速YOLOv5模型推理
YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU
玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测
YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制
YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层
Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）
使用Kaggle GPU资源免费体验Stable Diffusion开源项目
Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）
Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）