Ultralytics:解读Conv模块
前言
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)
相关介绍
Ultralytics 简介
Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。
前提条件
- 熟悉Python、Pytorch
实验环境
Package Version
------------------------ ------------
Python 3.11.8
absl-py 2.4.0
accelerate 1.13.0
annotated-doc 0.0.4
anyio 4.13.0
calflops 0.3.2
certifi 2026.4.22
charset-normalizer 3.4.7
click 8.3.3
colorama 0.4.6
contourpy 1.3.3
cycler 0.12.1
filelock 3.29.0
flatbuffers 25.12.19
fonttools 4.62.1
fsspec 2026.4.0
grpcio 1.80.0
h11 0.16.0
hf-xet 1.5.0
httpcore 1.0.9
httpx 0.28.1
huggingface_hub 1.14.0
idna 3.15
Jinja2 3.1.6
kiwisolver 1.5.0
Markdown 3.10.2
markdown-it-py 4.2.0
MarkupSafe 3.0.3
matplotlib 3.10.9
mdurl 0.1.2
ml_dtypes 0.5.0
mpmath 1.3.0
networkx 3.6.1
numpy 1.26.4
nvidia-cublas-cu12 12.8.3.14
nvidia-cuda-cupti-cu12 12.8.57
nvidia-cuda-nvrtc-cu12 12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12 9.7.1.26
nvidia-cufft-cu12 11.3.3.41
nvidia-cufile-cu12 1.13.0.11
nvidia-curand-cu12 10.3.9.55
nvidia-cusolver-cu12 11.7.2.55
nvidia-cusparse-cu12 12.5.7.53
nvidia-cusparselt-cu12 0.6.3
nvidia-nccl-cu12 2.26.2
nvidia-nvjitlink-cu12 12.8.61
nvidia-nvtx-cu12 12.8.55
onnx 1.19.0
onnxruntime-gpu 1.26.0
onnxslim 0.1.94
opencv-python 4.6.0.66
packaging 26.2
pillow 12.2.0
pip 24.0
polars 1.40.1
polars-runtime-32 1.40.1
protobuf 7.34.1
psutil 7.2.2
pycocotools 2.0.11
Pygments 2.20.0
pyparsing 3.3.2
python-dateutil 2.9.0.post0
PyYAML 6.0.3
regex 2026.5.9
requests 2.34.1
rich 15.0.0
safetensors 0.7.0
scipy 1.16.0
setuptools 65.5.0
shellingham 1.5.4
six 1.17.0
sympy 1.14.0
tabulate 0.10.0
tensorboard 2.20.0
tensorboard-data-server 0.7.2
tokenizers 0.22.2
torch 2.7.1+cu128
torchaudio 2.7.1+cu128
torchvision 0.22.1+cu128
tqdm 4.67.3
transformers 5.8.1
triton 3.3.1
typer 0.25.1
typing_extensions 4.15.0
ultralytics 8.4.58
ultralytics-thop 2.0.19
urllib3 2.7.0
Werkzeug 3.1.8
Conv
import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn
def autopad(k, p=None, d=1): # kernel, padding, dilation
"""Pad to 'same' shape outputs."""
if d > 1:
k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-size
if p is None:
p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-pad
return p
class Conv(nn.Module):
"""Standard convolution module with batch normalization and activation.
Attributes:
conv (nn.Conv2d): Convolutional layer.
bn (nn.BatchNorm2d): Batch normalization layer.
act (nn.Module): Activation function layer.
default_act (nn.Module): Default activation function (SiLU).
"""
default_act = nn.SiLU() # default activation
def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
"""Initialize Conv layer with given parameters.
Args:
c1 (int): Number of input channels.
c2 (int): Number of output channels.
k (int): Kernel size.
s (int): Stride.
p (int, optional): Padding.
g (int): Groups.
d (int): Dilation.
act (bool | nn.Module): Activation function.
"""
super().__init__()
self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
self.bn = nn.BatchNorm2d(c2)
self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()
def forward(self, x):
"""Apply convolution, batch normalization and activation to input tensor.
Args:
x (torch.Tensor): Input tensor.
Returns:
(torch.Tensor): Output tensor.
"""
return self.act(self.bn(self.conv(x)))
def forward_fuse(self, x):
"""Apply convolution and activation without batch normalization.
Args:
x (torch.Tensor): Input tensor.
Returns:
(torch.Tensor): Output tensor.
"""
return self.act(self.conv(x))
使用示例

if __name__ == '__main__':
# 1. 读取图像(请将路径改为您自己的图片)
img_path = "cat_640x640.png" # 或者使用绝对路径
img_bgr = cv2.imread(img_path)
if img_bgr is None:
raise FileNotFoundError(f"图片 {img_path} 不存在!请检查路径。")
# 2. 转换为 RGB,并转为 PyTorch 张量 (H,W,C) -> (C,H,W) -> (1,C,H,W)
img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
img_tensor = torch.from_numpy(img_rgb).float() # (H, W, C)
img_tensor = img_tensor.permute(2, 0, 1).unsqueeze(0) # (1, C, H, W)
# 可选:归一化到 [0,1] 便于显示(卷积本身不需要)
# img_tensor = img_tensor / 255.0
# 3. 创建卷积层:输入3通道,输出16通道(为了可视化更丰富),核3×3,步长2
conv_layer = Conv(c1=3, c2=16, k=3, s=2)
# 4. 前向传播(标准模式)
with torch.no_grad(): # 推理模式,不计算梯度
out = conv_layer(img_tensor)
print("标准 forward 输出形状:", out.shape) # 实际输出: torch.Size([1, 16, 320, 320])
# 5. 可视化输出特征图(以第一个通道为例)
# 将张量转为 numpy,并去掉 batch 维
feat_map = out[0, 0, :, :].cpu().numpy() # 取第一个通道,形状 (320, 320)
# 归一化到 0~255 以便显示
feat_map = (feat_map - feat_map.min()) / (feat_map.max() - feat_map.min() + 1e-8)
feat_map = (feat_map * 255).astype(np.uint8)
# 使用 matplotlib 显示原图和特征图
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.imshow(cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)) # 显示原图(RGB)
plt.title("Original Image")
plt.axis("off")
plt.subplot(1, 2, 2)
plt.imshow(feat_map, cmap='gray')
plt.title("Conv Output (Channel 0)")
plt.axis("off")
plt.tight_layout()
plt.savefig("conv_output_visualization.png", dpi=150) # 保存图片
plt.show()

流程示意图

代码解读
autopad(k, p=None, d=1) 函数
功能
自动计算卷积操作的填充量(padding),使得在步长 s=1 时,输出特征图的空间尺寸与输入保持一致(即 “same” 填充)。若指定了 p,则直接使用该填充值。
参数
k:卷积核大小(int或list,如[height, width])。p:手动指定的填充值,若为None则自动计算。d:膨胀系数(dilation rate),默认 1。
逻辑
- 若
d > 1,先计算实际卷积核尺寸:- 若
k为整数:k_eff = d * (k - 1) + 1 - 若
k为列表:分别对每个维度计算k_eff。
(膨胀卷积的实际核大小是d*(k-1)+1,因为每两个原始核元素之间插入d-1个空格。)
- 若
- 若
p为None,则取p = k_eff // 2(整数除法),即每侧填充为核大小的一半(向下取整)。
返回值
填充值(整数或列表),可直接用于 nn.Conv2d 的 padding 参数。
Conv 类
功能
标准卷积模块,顺序执行:卷积 → 批归一化 → 激活函数。提供两种前向传播方式:
forward:完整流程(含 BN),用于训练或常规推理。forward_fuse:跳过 BN(仅卷积 + 激活),用于推理加速(需提前将 BN 参数融合进卷积权重)。
关键属性
self.conv:nn.Conv2d实例,bias=False(因为后续接 BN,偏置冗余)。self.bn:nn.BatchNorm2d,对卷积输出进行归一化。self.act:激活函数层,默认为 SiLU(Swish)。
初始化参数
| 参数 | 类型 | 说明 |
|---|---|---|
c1 | int | 输入通道数 |
c2 | int | 输出通道数 |
k | int / tuple | 卷积核大小(默认 1) |
s | int / tuple | 步长(默认 1) |
p | int / tuple / None | 填充(若为 None,由 autopad 自动计算) |
g | int | 分组卷积的组数(默认 1) |
d | int | 膨胀率(默认 1) |
act | bool / nn.Module | 激活函数:True 表示使用默认 SiLU,False 表示无激活,也可传入自定义激活模块 |
前向方法
forward(x):return self.act(self.bn(self.conv(x)))forward_fuse(x):return self.act(self.conv(x))(无 BN)
输出尺寸计算公式
对于卷积层,给定输入尺寸 H i n × W i n H_{in} \times W_{in} Hin×Win,输出尺寸 H o u t × W o u t H_{out} \times W_{out} Hout×Wout 为:
H
o
u
t
=
⌊
H
i
n
+
2
p
−
d
⋅
(
k
−
1
)
−
1
s
⌋
+
1
H_{out} = \left\lfloor \frac{H_{in} + 2p - d \cdot (k-1) - 1}{s} \right\rfloor + 1
Hout=⌊sHin+2p−d⋅(k−1)−1⌋+1
W
o
u
t
=
⌊
W
i
n
+
2
p
−
d
⋅
(
k
−
1
)
−
1
s
⌋
+
1
W_{out} = \left\lfloor \frac{W_{in} + 2p - d \cdot (k-1) - 1}{s} \right\rfloor + 1
Wout=⌊sWin+2p−d⋅(k−1)−1⌋+1
- 若卷积核为方形( k h = k w = k k_h = k_w = k kh=kw=k),则上式可统一。
- 若为非对称核,需分别代入对应维度的 k h , k w k_h, k_w kh,kw。
- 膨胀率
d
d
d 影响实际感受野,有效核大小
k
e
f
f
=
d
(
k
−
1
)
+
1
k_{eff} = d(k-1) + 1
keff=d(k−1)+1,因此公式也可写作
H o u t = ⌊ H i n + 2 p − k e f f s ⌋ + 1 H_{out} = \left\lfloor \frac{H_{in} + 2p - k_{eff}}{s} \right\rfloor + 1 Hout=⌊sHin+2p−keff⌋+1。
autopad 的填充策略
当未指定 p 时,autopad 令
p
=
k
e
f
f
/
/
2
p = k_{eff} // 2
p=keff//2。
此时,若步长
s
=
1
s = 1
s=1,则:
H
o
u
t
=
⌊
H
i
n
+
2
⋅
⌊
k
e
f
f
/
2
⌋
−
k
e
f
f
1
⌋
+
1
=
H
i
n
H_{out} = \left\lfloor \frac{H_{in} + 2\cdot\lfloor k_{eff}/2 \rfloor - k_{eff}}{1} \right\rfloor + 1 = H_{in}
Hout=⌊1Hin+2⋅⌊keff/2⌋−keff⌋+1=Hin
(因为
2
⋅
⌊
k
e
f
f
/
2
⌋
2\cdot\lfloor k_{eff}/2 \rfloor
2⋅⌊keff/2⌋ 与
k
e
f
f
k_{eff}
keff 相等或相差 1,但减后向下取整再 +1 仍得原尺寸。)
因此,当 s=1 时,输出尺寸严格等于输入尺寸。
若 s > 1 s > 1 s>1,输出尺寸将缩小约 1 / s 1/s 1/s 倍(实际为向下取整后加 1)。
示例计算
- 输入图像
640×640,c1=3, c2=16, k=3, s=2, d=1, p=None。 autopad(3, None, 1)得到p = 3//2 = 1。- 代入公式:
H o u t = ⌊ ( 640 + 2 × 1 − 3 ) / 2 ⌋ + 1 = ⌊ 639 / 2 ⌋ + 1 = 319 + 1 = 320 H_{out} = \lfloor (640 + 2\times1 - 3) / 2 \rfloor + 1 = \lfloor 639/2 \rfloor + 1 = 319 + 1 = 320 Hout=⌊(640+2×1−3)/2⌋+1=⌊639/2⌋+1=319+1=320。 - 因此输出形状为
[1, 16, 320, 320](batch=1)。
注意事项与扩展
1. 输出尺寸的误区
- 当
s=2时,输出尺寸约为输入的一半(例如 640→320),若期望保持尺寸,请设置s=1。
2. 特征图可视化
- 卷积输出有多个通道(如本例 16 个),每个通道代表一种特征响应。可视化时通常取单通道或若干通道并归一化到
[0,255]显示。 - 在远程服务器无图形界面的环境下,应使用
matplotlib.use('Agg')并保存为图片文件,避免调用plt.show()。
3. forward_fuse 的使用场景
- 推理阶段可通过
torch.nn.utils.fuse_conv_bn_eval将 BN 参数融合进卷积权重,然后调用forward_fuse跳过 BN,减少计算量,提升速度。
4. 依赖库
torch,numpy,opencv-python(用于图像读取),matplotlib(用于可视化)。
5. 在 YOLOv8 中的作用
Conv类是 YOLOv8 网络中的基础卷积单元,配置文件中出现的Conv即对应此实现。更高级的C2f、SPPF等模块均在此基础上构建。
参考文献
[1] https://docs.ultralytics.com/
[2] https://github.com/ultralytics/ultralytics.git
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)


933

被折叠的 条评论
为什么被折叠?



