Faster R-CNN + PyTorch 自定义目标检测实战指南

原创于 2026-06-16 10:04:19 发布 · 479 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Faster R-CNN #PyTorch #目标检测

网络专栏收录该内容

75 篇文章

订阅专栏

1. 项目概述：为什么选 Faster R-CNN + PyTorch 做自定义目标检测训练

你手头有一批自家产线拍的电路板照片，想自动标出电容、电阻、焊点的位置；或者你正在做农业无人机图像分析，需要从航拍图里圈出病害叶片；又或者你在开发一款AR导览App，得实时识别博物馆展柜里的青铜器类别——这些都不是ImageNet分类任务，而是典型的“一张图里有多个目标、每个目标要框出位置+给出类别”的目标检测问题。而Faster R-CNN，至今仍是工业界落地最稳、学术界引用最广、新手入门最不踩坑的两阶段检测器之一。它不像YOLO系列那样追求极致速度，但胜在定位准、小目标鲁棒、训练过程透明可控，特别适合你手里只有几百张标注图、又要求结果可解释、可调试的真实项目场景。

我带过三届校企联合实验室的学生，也帮五家中小制造企业做过视觉质检系统落地，发现一个铁律： 90%以上首次做定制检测的团队，最终都回到Faster R-CNN作为基线模型 。不是因为它多先进，而是它像一台机械表——齿轮咬合清晰、故障点明确、调参逻辑直白。你改一个RPN anchor尺寸，就能立刻看到正负样本分布变化；你动一下RoI Pooling的输出尺寸，特征图感受野就跟着变；你换掉backbone，整个训练曲线形态都会如实反馈。这种“所见即所得”的调试体验，在YOLOv8或DETR这类端到端黑盒模型里是很难获得的。

PyTorch则是这套方案能跑通的底层保障。它不是靠宣传口号赢市场，而是靠 torchvision.models.detection.fasterrcnn_resnet50_fpn() 这一行代码，直接给你一个预训练好、结构完整、接口统一、连COCO类别映射都内置好的开箱即用模型。你不需要从零写RPN loss、不用手动实现RoI Align、更不用纠结FPN的跨层连接怎么写——这些全被封装在 torchvision 里，且源码完全开放。我去年给一家医疗影像公司做肺结节检测时，他们原计划用TensorFlow重写整个检测流程，结果发现PyTorch版只需200行核心训练代码（含数据加载、loss监控、checkpoint保存），而TF版本光是复现FPN特征融合就卡了两周。这不是框架优劣之争，而是生态成熟度的真实差距。

关键词里提到的“Towards AI - Medium”，其实恰恰印证了这个选择的合理性：大量一线工程师愿意把实操细节发在Medium上，正是因为PyTorch+Faster R-CNN组合足够稳定，经验可复制、问题可复现、代码可共享。你搜到的每一篇教程，背后都是有人真正在产线上跑通过的。所以这篇内容不讲“为什么PyTorch比TF好”这种空泛对比，只聚焦一件事： 如何把你手里的几十张、几百张、最多几千张自定义图片，真正训出一个能上线跑的Faster R-CNN模型 。从数据格式转换的坑、到训练loss震荡的根因、再到推理时NMS阈值怎么调才不漏检——全是我在车间、实验室、客户现场亲手调出来的参数和判断逻辑。

2. 整体设计思路与方案选型解析

2.1 为什么坚持用COCO格式，而不是Pascal VOC或自定义JSON？

很多人第一反应是：“我只有200张图，还要按COCO标准建 annotations/instances_train2017.json ？太重了！”——这恰恰是最大误区。COCO格式不是为大厂准备的，而是为 工程化迭代 设计的。它的结构强制你思考三个关键问题：

每张图有没有唯一ID？（避免文件名重复导致标注错位）
每个类别有没有全局ID？（防止“苹果”在A数据集是id=1，在B数据集变成id=3）
每个bbox坐标是不是归一化到[0,1]？（不是！COCO存的是绝对像素值，这反而让debug更直观——你打开一张图，量下框宽是124像素，json里 "bbox":[x,y,124,h] 必须对得上）

我见过最惨的案例：某团队用自定义CSV存 image_name,x1,y1,x2,y2,class_name ，结果因为Excel自动把 1e-5 转成 0.00001 ，导致所有小目标框坐标偏移0.00001像素，在训练时被 torchvision 的 box_iou 计算直接判为0，正样本全丢。而COCO格式用整数存宽高，天然规避浮点误差。

更关键的是， torchvision 的 CocoDetection 类只认COCO格式。你若强行用VOC格式，就得自己写Dataset类，重写 __getitem__ 返回 image, target 字典，其中 target 必须包含 boxes （float tensor）、 labels （int tensor）、 image_id （int）、 area （float tensor）、 iscrowd （bool tensor）——这五个字段一个都不能少，否则 torchvision 的 GeneralizedRCNNTransform 会报错。而COCO格式天然满足，你只需一行：

from torchvision.datasets import CocoDetection
dataset = CocoDetection(root="images/", annFile="annotations/instances_train.json")

连 __getitem__ 都不用重写。省下的时间，够你多标50张图。

2.2 为什么选ResNet50-FPN backbone，而不是MobileNet或EfficientNet？

torchvision 提供了 fasterrcnn_mobilenet_v3_large_fpn 和 fasterrcnn_efficientnet_b2_fpn 等轻量版，但我在6个实际项目中全部弃用，原因很实在：

小目标检测能力断崖式下降 ：MobileNet的浅层特征图分辨率低（如stage1输出仅112×112），而FPN的P2层需要承接原始图1/4尺度的特征。当你的目标平均尺寸<32×32像素时，P2层根本没足够信息。我测试过同一组PCB缺陷图，ResNet50-FPN的mAP@0.5达78.3%，MobileNet版只有52.1%。
训练稳定性差 ：轻量backbone的梯度流更脆弱。在batch_size=2的小数据集上，MobileNet版训练loss常在第3轮就爆炸（loss>100），而ResNet50版能平稳收敛到0.8以下。
迁移学习收益低 ：ResNet50在ImageNet上预训练了上亿参数，其前几层学的是通用边缘、纹理特征，正好匹配工业图中的螺丝、焊点、划痕；而MobileNet为移动端优化，早期卷积核更稀疏，对微小结构响应弱。

ResNet50-FPN是真正的“甜点选择”：它比ResNet101参数少35%，训练快1.8倍；比ResNet34多出FPN结构，小目标召回率提升22%；且 torchvision 对其做了深度优化——FPN各层的 upsample 用的是 nearest 插值而非 bilinear ，避免引入模糊噪声，这对定位精度至关重要。

2.3 为什么必须冻结backbone前3个stage，而不是全参数微调？

这是新手最容易犯的致命错误。很多人看到“fine-tune”，就直接 model.train() 然后 optimizer.step() ，结果训练10轮后loss不降反升。真相是： 预训练backbone的浅层权重已经高度泛化，强行更新反而破坏其提取基础特征的能力 。

我做过对照实验：在200张安全帽检测图上，

全参数微调：val loss从1.23→1.89（第5轮），mAP@0.5从0.41→0.33
仅解冻layer4：val loss从1.23→0.67（第15轮），mAP@0.5从0.41→0.69
仅解冻FPN和RPN：val loss从1.23→0.51（第12轮），mAP@0.5从0.41→0.72

原理很简单：ResNet50的stage1~3学的是Gabor滤波器级别的通用特征（边缘、角点、斑点），这些在工业图、医疗图、航拍图中都高度一致；而stage4和FPN才开始学习高层语义（如“圆形金属物体”、“绿色不规则叶片”）。所以正确做法是：

# 冻结stage1~3
for name, param in model.backbone.body.named_parameters():
    if "layer1" in name or "layer2" in name or "layer3" in name:
        param.requires_grad = False
# 仅解冻layer4和FPN
for name, param in model.backbone.fpn.named_parameters():
    param.requires_grad = True

这样既保留预训练红利，又让模型专注适配你的新任务。

3. 核心细节解析与实操要点

3.1 COCO格式数据集构建：从零生成合法JSON的硬核步骤

假设你手头有200张JPG图，存在 images/ 文件夹；用LabelImg标出了bbox，导出为Pascal VOC XML。别急着转COCO——先做三件事：

第一步：统一重命名并建立ID映射
COCO要求 image_id 是整数，且 file_name 必须与磁盘文件名严格一致。LabelImg导出的XML里 <filename> 可能是 IMG_001.jpg ，但你磁盘里是 001.jpg 。用脚本强制规范：

import os, glob
images = sorted(glob.glob("images/*.jpg"))
for i, img_path in enumerate(images):
    new_name = f"img_{i+1:04d}.jpg"  # 生成img_0001.jpg格式
    os.rename(img_path, os.path.join("images", new_name))

同时生成 image_id_map.csv ：

file_name,image_id
img_0001.jpg,1
img_0002.jpg,2
...

这个映射表后续转JSON时要用，避免人工数错ID。

第二步：XML转COCO annotations的避坑要点
很多工具（如 xml_to_coco.py ）会直接把VOC的 <xmin><ymin><xmax><ymax> 转成COCO的 [x,y,width,height] ，但这里有个致命陷阱： VOC坐标是1-indexed（左上角为(1,1)），而COCO是0-indexed（左上角为(0,0)） 。如果你没减1，所有bbox会整体右下偏移1像素。实测在小目标上会导致IoU计算偏差超15%。正确转换逻辑：

# VOC的xmin=10, ymin=20, xmax=50, ymax=80 → COCO的[x,y,w,h]
x = xmin - 1  # 9
y = ymin - 1  # 19
w = xmax - xmin  # 40
h = ymax - ymin  # 60

另外， area 字段不能简单用 w*h ，必须用 float(w * h) ，且 iscrowd 一律设为0（表示单目标，非crowd标注）。

第三步：categories字段的生成逻辑
COCO要求 categories 中 id 从1开始连续，且 name 必须小写无空格。比如你的标签是 "Safety_Hat" ，必须转成 "safety_hat" 。更重要的是， id 必须与你训练时 num_classes 严格对应。若你只有1个类别（安全帽），则 categories = [{"id":1, "name":"safety_hat"}] ，且模型初始化时必须设 num_classes=2 （背景+1类），否则 torchvision 会报 IndexError: index 1 is out of bounds for dimension 0 with size 1 。这个错误我帮客户debug了7小时才发现是categories id没从1开始。

3.2 数据增强策略：为什么RandomHorizontalFlip是唯一必需项？

目标检测的数据增强远比分类复杂。 torchvision 的 RandomPhotometricDistort （亮度/对比度/饱和度扰动）看似合理，但在工业场景中极易失效：

产线相机白平衡固定，人为调色会引入训练-推理域偏移；
医疗CT图是灰度图，加饱和度毫无意义；
航拍图光照均匀，随机调亮反而让阴影区目标消失。

真正普适且有效的只有 RandomHorizontalFlip （水平翻转）。原因在于：

它不改变bbox的几何关系（翻转后 x 坐标变为 width-x-w ， w 不变）；
它能有效扩充样本多样性，尤其对左右对称目标（如人脸、汽车、电路板）效果显著；
torchvision 的 RandomHorizontalFlip 已内置bbox同步变换，无需手动计算。

其他增强如 RandomZoomOut 、 RandomRotation 必须慎用：

RandomZoomOut 会引入大量背景区域，导致RPN正样本比例暴跌；
RandomRotation 需配合 RotatedBBox 处理，而 torchvision 原生不支持，强行旋转bbox会导致坐标越界。

我的实操建议：

from torchvision.transforms import functional as F
class Compose(object):
    def __init__(self, transforms):
        self.transforms = transforms

    def __call__(self, image, target):
        for t in self.transforms:
            image, target = t(image, target)
        return image, target

class RandomHorizontalFlip(object):
    def __init__(self, prob):
        self.prob = prob

    def __call__(self, image, target):
        if random.random() < self.prob:
            height, width = image.shape[-2:]  # C,H,W
            image = F.hflip(image)
            bbox = target["boxes"]
            bbox[:, [0, 2]] = width - bbox[:, [2, 0]]  # x1,x2翻转
            target["boxes"] = bbox
        return image, target

# 训练时只用这一种增强
train_transform = Compose([RandomHorizontalFlip(0.5)])

验证集 禁止任何增强 ，确保评估结果真实反映模型能力。

3.3 模型初始化与类别适配：num_classes设置的生死线

这是99%新手栽跟头的地方。 torchvision.models.detection.fasterrcnn_resnet50_fpn() 默认加载COCO预训练权重（80类），但当你传入 num_classes=2 时，它只会替换最后的分类头， 不会自动适配RPN的anchor分类头 ！RPN有两个输出分支：

rpn_head.cls_logits ：预测anchor是前景/背景（2类）
rpn_head.bbox_pred ：回归anchor偏移量（4参数）

而检测头（ roi_heads.box_predictor.cls_score ）才是负责最终N类分类的。若你只改 num_classes=2 ，RPN仍按COCO的90个anchor（每位置3种scale×3种aspect ratio）工作，但检测头只输出2维logits，导致 cls_score 维度不匹配。

正确做法分三步：

加载预训练模型，但 不加载RPN权重 ：

model = fasterrcnn_resnet50_fpn(pretrained=True)
# 替换检测头（必须！）
in_features = model.roi_heads.box_predictor.cls_score.in_features
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes=2)
# RPN头保持原样（它本来就是2类：前景/背景，无需修改）

确保 num_classes 包含背景：若你只有1个目标类， num_classes=2 ；若有3类， num_classes=4 。
初始化RPN时，显式指定 rpn_head 不加载预训练权重：

# 这行代码必须加，否则RPN仍用COCO权重
model.rpn.head.cls_logits = nn.Conv2d(256, 2 * 3, kernel_size=1, stride=1)  # 2类×3anchor
model.rpn.head.bbox_pred = nn.Conv2d(256, 4 * 3, kernel_size=1, stride=1)  # 4参数×3anchor

我曾因漏掉第3步，在训练第1轮就遇到 RuntimeError: Expected input batch_size (2) to match target batch_size (180) ——因为RPN输出180个anchor logits，但检测头只期待2类，维度对不上。这个错误提示极其晦涩，必须看源码才能定位。

4. 实操过程与核心环节实现

4.1 完整训练流程：从数据加载到模型保存的逐行解析

以下是我在线上部署的精简版训练脚本（已删减日志和可视化，保留核心逻辑）：

import torch
from torch.utils.data import DataLoader
import torchvision
from torchvision.models.detection import fasterrcnn_resnet50_fpn
from torchvision.models.detection.faster_rcnn import FastRCNNPredictor
from torchvision.datasets import CocoDetection
from torchvision import transforms

# 1. 数据集加载（关键：COCO格式路径必须准确）
train_dataset = CocoDetection(
    root="images/",
    annFile="annotations/instances_train.json",
    transforms=train_transform  # 上文定义的水平翻转
)
val_dataset = CocoDetection(
    root="images/",
    annFile="annotations/instances_val.json",
    transforms=None  # 验证集不增强
)

# 2. 自定义collate_fn：COCO数据集返回(image, target)，需打包成batch
def collate_fn(batch):
    return tuple(zip(*batch))  # 保持list of (image, target)结构

train_loader = DataLoader(
    train_dataset,
    batch_size=2,  # 小数据集用小batch，避免梯度爆炸
    shuffle=True,
    num_workers=2,
    collate_fn=collate_fn
)
val_loader = DataLoader(
    val_dataset,
    batch_size=1,  # 验证集batch_size=1，避免不同图尺寸pad冲突
    shuffle=False,
    num_workers=2,
    collate_fn=collate_fn
)

# 3. 模型构建（重点：num_classes和RPN初始化）
model = fasterrcnn_resnet50_fpn(pretrained=True)
num_classes = 2  # 背景+1类目标
in_features = model.roi_heads.box_predictor.cls_score.in_features
model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)

# 4. 冻结backbone前3个stage（关键！）
for name, param in model.backbone.body.named_parameters():
    if "layer1" in name or "layer2" in name or "layer3" in name:
        param.requires_grad = False

# 5. 优化器：只训练解冻的参数
params = [p for p in model.parameters() if p.requires_grad]
optimizer = torch.optim.SGD(params, lr=0.005, momentum=0.9, weight_decay=0.0005)
lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=3, gamma=0.1)

# 6. 训练循环（核心：loss分解监控）
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
model.to(device)

for epoch in range(10):  # 小数据集10轮足够
    model.train()
    total_loss = 0
    for images, targets in train_loader:
        images = list(image.to(device) for image in images)
        targets = [{k: v.to(device) for k, v in t.items()} for t in targets]

        # 损失函数由torchvision内部计算，返回dict
        loss_dict = model(images, targets)
        losses = sum(loss for loss in loss_dict.values())

        optimizer.zero_grad()
        losses.backward()
        optimizer.step()

        total_loss += losses.item()

    # 验证阶段（关键：用COCOeval计算mAP）
    model.eval()
    coco_evaluator = get_coco_api_from_dataset(val_dataset)
    for images, targets in val_loader:
        images = list(image.to(device) for image in images)
        targets = [{k: v.to(device) for k, v in t.items()} for t in targets]
        outputs = model(images)
        res = {target["image_id"].item(): output for target, output in zip(targets, outputs)}
        coco_evaluator.update(res)

    # 输出详细loss分解（这才是调试关键！）
    print(f"Epoch {epoch+1}: Train Loss={total_loss/len(train_loader):.3f}")
    print(f"  RPN Objectness Loss: {loss_dict['loss_objectness'].item():.3f}")
    print(f"  RPN Box Regression Loss: {loss_dict['loss_rpn_box_reg'].item():.3f}")
    print(f"  RCNN Class Loss: {loss_dict['loss_classifier'].item():.3f}")
    print(f"  RCNN Box Regression Loss: {loss_dict['loss_box_reg'].item():.3f}")

    lr_scheduler.step()
    # 保存最佳模型（按val mAP）
    if epoch == 0 or coco_evaluator.coco_eval['bbox'].stats[0] > best_map:
        best_map = coco_evaluator.coco_eval['bbox'].stats[0]
        torch.save(model.state_dict(), "best_model.pth")

为什么必须打印loss分解？

loss_objectness 异常高（>1.0）：说明RPN正负样本比例失衡，需检查anchor尺寸是否匹配目标尺度；
loss_rpn_box_reg 持续>0.5：表明RPN回归不准，大概率是bbox坐标有误（如未减1）；
loss_classifier 下降慢但 loss_box_reg 已很低：说明分类头欠拟合，应增大 lr 或解冻更多backbone层；
所有loss在第3轮后停滞：大概率是学习率太高， lr_scheduler 的 step_size 应设为5而非3。

我曾在一个药瓶检测项目中，发现 loss_objectness 始终在2.1左右，排查3天后发现是标注工具导出的XML里 <object> 节点嵌套了两层，导致 torchvision 解析时把同一个bbox读了两次，正样本翻倍——这就是loss分解的价值：它把黑盒训练变成了可诊断的白盒过程。

4.2 推理与后处理：NMS阈值与score阈值的黄金组合

训练完模型，你以为直接 model.eval() 就能用了？错。推理时有两个阈值决定最终效果：

score_thresh ：过滤低置信度预测（如 score<0.5 的框直接丢弃）；
nms_thresh ：非极大值抑制IoU阈值（如两个框IoU>0.5，则删掉score低的那个）。

很多人盲目设 score_thresh=0.5 ，结果漏检大量小目标。真相是： score_thresh 应根据你的业务容忍度动态调整，而非固定值 。例如：

安全帽检测：漏检=安全事故，宁可多报（ score_thresh=0.3 ），再靠人工复核；
电商商品图检测：错检=用户投诉，必须严控（ score_thresh=0.7 ），宁可少标几个；
PCB缺陷：小缺陷易漏，设 score_thresh=0.25 ，但 nms_thresh 要提高到0.7，避免多个小框被合并。

我的实测黄金组合（基于200张图验证集）：

任务类型	score_thresh	nms_thresh	mAP@0.5提升	漏检率
大目标（>100×100）	0.5	0.5	基准	8.2%
小目标（<32×32）	0.25	0.7	+12.3%	2.1%
高密度目标（>10个/图）	0.4	0.3	+5.6%	15.7%

推理代码必须显式设置：

model = fasterrcnn_resnet50_fpn(pretrained=False, num_classes=2)
model.load_state_dict(torch.load("best_model.pth"))
model.eval()

# 修改模型内部阈值（注意：必须在eval模式下）
model.roi_heads.score_thresh = 0.25  # 小目标用0.25
model.roi_heads.nms_thresh = 0.7     # 小目标用0.7

# 推理
with torch.no_grad():
    prediction = model([image_tensor.to(device)])
    boxes = prediction[0]['boxes'].cpu().numpy()
    scores = prediction[0]['scores'].cpu().numpy()
    labels = prediction[0]['labels'].cpu().numpy()

切记： score_thresh 和 nms_thresh 是模型属性，不是后处理函数参数。如果用 torchvision.ops.nms() 手动NMS，会丢失模型内部的score筛选逻辑，导致结果不一致。

4.3 模型导出与部署：ONNX转换的三大雷区

训练好的 .pth 模型不能直接上嵌入式设备。必须转ONNX，但 torch.onnx.export() 有三个深坑：

雷区1：dynamic_axes设置错误
Faster R-CNN输入是list of tensors，且每张图尺寸不同。若不声明dynamic_axes，ONNX会固化输入尺寸，导致推理时报 Input shape mismatch 。正确写法：

dummy_input = [torch.randn(3, 600, 800)]  # 单张图示例
torch.onnx.export(
    model,
    dummy_input,
    "faster_rcnn.onnx",
    input_names=["images"],
    output_names=["boxes", "scores", "labels"],
    dynamic_axes={
        "images": {0: "batch_size", 2: "height", 3: "width"},  # 注意：list输入要展开
        "boxes": {0: "num_detections"},
        "scores": {0: "num_detections"},
        "labels": {0: "num_detections"}
    }
)

但 torchvision 模型实际输入是 list[tensor] ，ONNX不支持list类型。解决方案是 包装成单tensor输入 ：

class WrapperModel(torch.nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = model

    def forward(self, x):
        # x shape: [1,3,H,W]，转为list
        return self.model([x])

wrapper = WrapperModel(model)
dummy_input = torch.randn(1, 3, 600, 800)
torch.onnx.export(wrapper, dummy_input, "faster_rcnn.onnx", ...)

雷区2：RoIAlign算子不兼容
ONNX 1.8+才支持 RoIAlign ，旧版本会报 Unsupported operator: RoIAlign 。必须升级：

pip install onnx==1.12.0 onnxruntime==1.15.1

雷区3：后处理逻辑丢失
ONNX只导出网络前向，不包含NMS。你必须在ONNX Runtime中手动实现：

import onnxruntime as ort
sess = ort.InferenceSession("faster_rcnn.onnx")
outputs = sess.run(None, {"images": image_np})  # [boxes, scores, labels]

# 手动NMS（用cv2.dnn.NMSBoxes）
boxes, scores, labels = outputs
indices = cv2.dnn.NMSBoxes(boxes, scores, score_threshold=0.25, nms_threshold=0.7)

这就是为什么我说： 训练只是开始，部署才是真正的硬仗 。我帮一家工厂部署时，ONNX转换花了2天，NMS手动实现调参又花了3天——因为 cv2.dnn.NMSBoxes 的输入格式和 torchvision 不一致，必须把 [x,y,w,h] 转成 [x1,y1,x2,y2] 。

5. 常见问题与排查技巧实录

5.1 训练loss不下降：从数据到代码的全链路排查表

现象	可能原因	快速验证方法	解决方案
`loss_objectness` > 2.0 且不降	RPN正样本极少（<5%）	打印 `len(targets[0]['boxes'])` ，看每张图标注数	检查COCO JSON中 `image_id` 是否与文件名匹配；用 `cv2.imshow` 随机抽图，叠加bbox验证坐标是否正确
`loss_box_reg` > 1.0 且波动大	bbox坐标有误（如未减1）	取一张图， `print(targets[0]['boxes'])` ，用 `cv2.rectangle` 画框，看是否偏移	重跑XML转JSON脚本，确保 `x = xmin - 1`
所有loss在第1轮后突降至0.01	模型过拟合（batch_size太大或数据太少）	减小batch_size至1，观察loss是否回升	增加 `RandomHorizontalFlip` 概率至0.7；或添加 `DropBlock` （需自定义）
`loss_classifier` = nan	label越界（如 `labels` 中有0或>num_classes）	`print(targets[0]['labels'])` ，检查是否全为1	确保COCO JSON中 `category_id` 从1开始，且 `num_classes=类别数+1`
GPU显存OOM	图片尺寸过大或batch_size太大	用 `nvidia-smi` 监控显存，逐步减小 `batch_size`	将图片短边resize到600（ `torchvision.transforms.Resize(600)` ），保持长宽比

独家技巧：用Grad-CAM可视化RPN关注区域
当loss不降时，与其盲猜，不如看模型到底在看什么。用 captum 库：

from captum.attr import LayerGradCam
gradcam = LayerGradCam(model.rpn.head.conv, model.rpn.head.conv)
attributions = gradcam.attribute(image_tensor.unsqueeze(0), target=0)  # target=0是前景
# 可视化attributions，看RPN是否聚焦在目标区域

如果热力图集中在背景，说明RPN根本没学到目标特征——此时90%是数据问题，而非模型问题。

5.2 推理结果错乱：bbox坐标错位的终极定位法

最诡异的问题：训练loss正常，验证mAP达标，但推理时bbox全偏右下角。根源永远在 坐标系转换 。Faster R-CNN内部使用两种坐标：

输入图像： [0, H) × [0, W) （H,W为原始尺寸）
特征图： [0, H/4) × [0, W/4) （P2层下采样4倍）
RPN输出： [0, H) × [0, W) （经 _onnx_batch_boxes 反算回原图）

错位通常发生在：

预处理resize未同步bbox ：你用 transforms.Resize(600) 缩放图像，但没按相同比例缩放 targets['boxes'] ；
OpenCV读图BGR→RGB顺序错误 ： cv2.imread 返回BGR， torchvision 期望RGB，颜色错位不影响bbox，但若你用 cv2.cvtColor 转换时尺寸参数写错，会引发连锁错误；
ONNX Runtime输入tensor通道顺序错误 ： cv2.imread 是HWC， torch 是CHW，必须 transpose(2,0,1) ，若写成 transpose(0,2,1) ，整个坐标系崩塌。

定位口诀 ：

若所有bbox偏移量相同（如全+15px），检查 transforms.Resize 是否没传 interpolation=cv2.INTER_NEAREST ；
若bbox大小正确但位置随机漂移，检查 cv2.imread 后是否漏了 [..., ::-1] 转RGB；
若bbox在小图上准、大图上偏，检查ONNX输入是否用了 np.expand_dims 但没 astype(np.float32) ，导致精度丢失。

我用一个函数封装所有安全操作：

def load_image_safe(path):
    img = cv2.imread(path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # BGR→RGB
    img = img.astype(np.float32) / 255.0         # 归一化
    img = torch.from_numpy(img).permute(2,0,1)   # HWC→CHW
    return img

# 推理前务必检查
image = load_image_safe("test.jpg")
print(f"Image shape: {image.shape}")  # 应为 [3, H, W]

5.3 小目标检测失效：从anchor设计到特征金字塔的深度优化

当你的目标平均尺寸<20×20像素时，标准Faster R-CNN的P2层（1/4尺度）已无法分辨。必须动手改：

Step 1：修改RPN anchor尺寸
默认anchor尺寸为 [32, 64, 128, 256, 512] ，最小32×32。小目标需新增 [8, 16] ：

from torchvision.models.detection.anchor_utils import AnchorGenerator
anchor_generator = AnchorGenerator(
    sizes=((8, 16, 32, 64, 128, 256, 512),),  # 新增8,16
    aspect_ratios=((0.5, 1.0, 2.0),) * 7
)
model.rpn.anchor_generator = anchor