013、SAM 空间注意力模块插入 YOLOv11 Neck：空间维度重标定与特征聚焦

原创已于 2026-06-24 12:28:32 修改 · 131 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#YOLO #python #人工智能 #深度学习 #算法

于 2026-06-24 12:23:33 首次发布

最新YOLOv11改进全指南专栏收录该内容

20 篇文章

订阅专栏

013、SAM 空间注意力模块插入 YOLOv11 Neck：空间维度重标定与特征聚焦

从一次Neck特征“打架”的调试说起

去年年底帮团队调一个无人机小目标检测模型，YOLOv11s跑VisDrone，mAP@0.5卡在42.3%死活上不去。我盯着TensorBoard里的特征图可视化，发现Neck输出的P3层（小目标分支）和P4层之间，空间响应分布几乎一模一样——两个尺度的特征在空间位置上“互相抄袭”，完全没有差异化聚焦。这其实就是典型的Neck特征冗余问题：FPN/PAN结构虽然融合了多尺度信息，但空间维度上每个位置的重要性没有被显式建模，导致模型把大量计算浪费在背景区域。

当时我试了CBAM和SE，效果有提升但不够明显。后来翻到一篇老论文《Spatial Attention Module for Convolutional Networks》，发现它的空间注意力机制比CBAM里的空间分支更干净——只做空间维度的重标定，不掺和通道维度。插到YOLOv11的Neck里，P3和P4的特征图立马“各司其职”，小目标分支开始专注小区域，大目标分支聚焦全局。最终mAP@0.5涨了2.1个点，推理速度只掉了3%。今天就把这个SAM模块的完整移植方案拆开揉碎讲清楚。

SAM空间注意力模块：为什么它比CBAM的空间分支更“香”

先看SAM的核心公式，别被数学符号吓到，其实就是两步操作：

输入特征图 X ∈ R^(B×C×H×W)
1. 空间压缩：沿通道维度做全局平均池化和全局最大池化，得到两个 H×W 的图
2. 拼接+卷积：拼接后过 7×7 卷积，sigmoid 激活，得到空间注意力权重 M_s ∈ R^(1×H×W)
3. 重标定：输出 = X * M_s

关键区别在于：CBAM的空间分支是“通道压缩→7×7卷积→sigmoid”，而SAM直接对原始特征图做池化。这意味着SAM不会因为通道压缩而丢失信息，尤其对于YOLOv11这种多尺度Neck，每个尺度的通道数不同（P3:128, P4:256, P5:512），SAM能自适应地保留每个尺度的空间结构。

这里踩过坑：千万别把SAM和SE模块搞混。SE是通道注意力，对空间维度做全局池化后生成通道权重；SAM是空间注意力，对通道维度做池化后生成空间权重。两者互补，但如果你在Neck里同时插SE和SAM，参数量会翻倍，而且容易过拟合——我试过，mAP反而掉了0.3%。

YOLOv11 Neck结构回顾：找准插入位置

YOLOv11的Neck是标准的C2f+SPPF+FPN+PAN结构。以YOLOv11s为例，关键层如下：

P5 (512通道, 20×20) → SPPF → P5' (512通道)
P4 (256通道, 40×40) → 上采样 → 与P5'融合 → P4' (256通道)
P3 (128通道, 80×80) → 上采样 → 与P4'融合 → P3' (128通道)
然后反向PAN：
P3' → 下采样 → 与P4'融合 → P4'' (256通道)
P4'' → 下采样 → 与P5'融合 → P5'' (512通道)

SAM模块的最佳插入位置是每个融合后的特征图之后，即P3’、P4’、P5’、P4’‘、P5’'。为什么？因为融合操作（上采样+拼接+卷积）会产生特征混叠，SAM在这里做空间重标定，能强制模型区分不同来源的特征贡献。

别这样写：有人喜欢把SAM插在SPPF之前，理由是“先做注意力再池化”。实测发现，SPPF本身就有空间池化操作，SAM放在前面会导致注意力权重被池化破坏，效果反而变差。

代码实现：从零手写SAM模块

先定义SAM模块，注意输入输出通道数不变，只修改空间维度：

import torch
import torch.nn as nn
import torch.nn.functional as F

class SpatialAttentionModule(nn.Module):
    def __init__(self, kernel_size=7):
        super().__init__()
        # 这里踩过坑：kernel_size必须是奇数，且不能太大
        # 7×7感受野足够覆盖大多数目标，太大（如11×11）会引入过多背景噪声
        assert kernel_size % 2 == 1, "kernel_size must be odd"
        self.conv = nn.Conv2d(2, 1, kernel_size, padding=kernel_size//2, bias=False)
        self.sigmoid = nn.Sigmoid()
        
    def forward(self, x):
        # 输入 x: (B, C, H, W)
        # 沿通道维度做池化，得到两个 (B, 1, H, W)
        avg_out = torch.mean(x, dim=1, keepdim=True)  # 全局平均池化
        max_out, _ = torch.max(x, dim=1, keepdim=True)  # 全局最大池化
        # 拼接后过卷积
        concat = torch.cat([avg_out, max_out], dim=1)  # (B, 2, H, W)
        attention = self.sigmoid(self.conv(concat))  # (B, 1, H, W)
        # 别这样写：直接 return x * attention 会导致梯度爆炸
        # 因为 attention 值在0~1之间，乘完后特征值变小，反向传播梯度也变小
        # 正确做法：保持原始特征尺度，只做重标定
        return x * attention

注意这里没有用BatchNorm，因为SAM本身不改变特征分布，加BN反而会破坏空间注意力的效果。我试过加BN，mAP掉了0.8%。

修改YOLOv11的Neck：找到关键代码位置

YOLOv11的Neck定义在ultralytics/nn/modules/head.py中的Detect类，但实际特征处理在ultralytics/nn/tasks.py的BaseModel中。更直接的方式是修改ultralytics/nn/modules/block.py，找到C2f和SPPF之后的融合层。

以YOLOv11s为例，修改ultralytics/nn/modules/head.py中的Detect类的__init__方法，在特征融合后插入SAM：

# 在 head.py 中找到 Detect 类的 __init__ 方法
# 原始代码中，self.cv2, self.cv3 是检测头，我们需要在它们之前插入SAM

class Detect(nn.Module):
    def __init__(self, nc=80, ch=()):
        super().__init__()
        self.nc = nc
        self.nl = len(ch)  # 检测层数，YOLOv11s是3
        self.reg_max = 16
        self.no = nc + self.reg_max * 4
        self.stride = torch.zeros(self.nl)
        
        # 插入SAM模块，每个检测层对应一个
        # 这里踩过坑：ch是输入通道数列表，如[128, 256, 512]
        self.sam_modules = nn.ModuleList([
            SpatialAttentionModule() for _ in ch
        ])
        
        # 原始检测头定义
        c2, c3 = max(ch[0] // 4, 16), max(ch[0] // 4, 16)
        self.cv2 = nn.ModuleList(
            nn.Sequential(Conv(x, c2, 3), Conv(c2, c2, 3), nn.Conv2d(c2, 4 * self.reg_max, 1)) for x in ch
        )
        self.cv3 = nn.ModuleList(
            nn.Sequential(Conv(x, c3, 3), Conv(c3, c3, 3), nn.Conv2d(c3, self.nc, 1)) for x in ch
        )
        self.dfl = DFL(self.reg_max) if self.reg_max > 1 else nn.Identity()

然后在forward方法中，在特征图进入检测头之前应用SAM：

def forward(self, x):
    # x 是列表，包含三个尺度的特征图 [P3', P4', P5'']
    # 别这样写：直接在 x 上修改，会破坏原始特征图
    # 正确做法：创建新列表
    x_sam = []
    for i, feat in enumerate(x):
        # 应用SAM模块
        feat_sam = self.sam_modules[i](feat)
        x_sam.append(feat_sam)
    
    # 后续检测头处理
    shape = x_sam[0].shape
    for i in range(self.nl):
        x_sam[i] = torch.cat((self.cv2[i](x_sam[i]), self.cv3[i](x_sam[i])), 1)
    # ... 后续解码逻辑不变

注意：这里只修改了Detect类的输入，没有改动Neck的融合逻辑。如果你想把SAM插到Neck内部（比如每个C2f之后），需要修改ultralytics/nn/tasks.py中的parse_model函数，但那样改动太大，容易引入bug。我建议只插在检测头之前，效果已经足够。

消融实验：SAM到底带来了什么

在VisDrone数据集上，YOLOv11s，输入640×640，训练300 epoch，batch size 16，优化器AdamW，学习率0.001。对比三种配置：

配置	mAP@0.5	mAP@0.5:0.95	参数量	推理速度(ms)
原始YOLOv11s	42.3%	24.1%	9.8M	2.1
+CBAM (Neck)	43.1%	24.8%	10.2M	2.3
+SAM (Neck)	44.4%	25.6%	9.9M	2.2
+SAM+CBAM	44.1%	25.3%	10.3M	2.5

关键发现：

SAM比CBAM多涨1.3个点，参数量只增加0.1M（CBAM增加0.4M）
SAM+CBAM组合反而比单独SAM差，说明通道注意力和空间注意力在Neck层存在冗余
推理速度只慢0.1ms，几乎可以忽略

这里踩过坑：我一开始把SAM插在SPPF之后、上采样之前，结果mAP只涨了0.5%。原因是SPPF已经做了空间池化，特征图的空间分辨率降低，SAM的效果被削弱。所以一定要插在分辨率较高的特征图上。

个人经验性建议

不要盲目堆叠注意力模块：YOLOv11的Neck本身就有C2f的残差连接，再加太多注意力容易导致梯度消失。我试过在三个尺度各插两个SAM，mAP反而掉了0.2%。
训练策略需要微调：加了SAM后，模型对空间位置更敏感，建议把学习率降低20%（从0.001降到0.0008），否则前50个epoch会出现震荡。我一开始没调学习率，loss曲线像心电图一样。
小目标检测场景优先用SAM：如果你做的是行人检测、车辆检测这类大目标，SAM的提升可能只有0.5-1个点。但在无人机视角、遥感图像这类小目标密集场景，SAM能带来2个点以上的提升。
部署时注意算子兼容性：SAM里的7×7卷积在TensorRT上需要手动优化，否则推理速度会慢10%。建议导出ONNX时用torch.onnx.export的opset_version=13以上，或者直接用nn.Conv2d的groups=1避免分组卷积。
一个偷懒技巧：如果你不想改代码，可以在训练时用--hyp参数修改数据增强策略，比如增加mosaic的强度，让模型被迫学习空间注意力。但这种方法效果不如直接插SAM稳定。