目标检测 object detection
目标检测的任务可以进行拆分,先在原始图像上产生候选区域,再对每个候选区域进行图像分类,最终可以得到物体出现的位置与类别。
图像分类已有成熟的算法,问题的关键即转换到如何产生候选区域(Region Proposal),引出了两种算法模型:
- 两阶段算法:应用传统图像算法先产生候选区域,然后再用卷积神经网络对这些区域进行分类,代表为:R-CNN系列,R-FCN;
- 单阶段算法:只使用一个网络同时产生候选区域并预测出物体的类别和位置,代表为:SSD,YOLO。
根据是否依赖锚框又可以分为 Anchor based 和 Anchor free 的方法。
目标检测涉及的相关概念如下:
边界框 Bounding box
边界框:正好能包含住物体的矩形框。
有如下几种格式:
- xywh:左上角坐标+宽+高,最常用;
- xyxy:左上角坐标+右下角坐标;
- cxcywh:中心点坐标+宽+高。
通常定义图片坐标的原点在左上角,x轴向右为正方向,y轴向下为正方向
锚框 Anchor
锚框:假想出来的一种框。在目标检测模型中,通常会以某种规则在图片上生成一系列锚框,将这些锚框当成 可能的候选区域。不同的模型往往有着不同的生成锚框的方式。
锚框与边界框往往存在误差,需要在锚框的基础上进行微调以形成能准确描述物体位置的 预测框,模型需要预测出微调的幅度。
候选区域 Region Proposal
RoI(Region of Interest)最早在Fsater R-CNN中提出,
候选区域(Region Proposal)与RoI的关系如下,RoI Pooling即表示对每个RoI进行池化:

空洞卷积 Dilated Convolutions/Atrous Convolutions
与普通的卷积相比,增加了一个扩张率(dilation rate)参数,主要用来表示扩张的大小。
扩张卷积与普通卷积的相同点在于,卷积核的大小是一样的,在神经网络中参数数量不变;区别在于扩张卷积具有更大的感受野。
如图所示为空洞卷积计算的形象化展示:

目标检测涉及两阶段和单阶段算法,如R-CNN系列和SSD、YOLO。关键概念包括边界框、锚框、候选区域和评价指标如IoU、精度和召回率。代表性算法有R-CNN系列(包括MaskR-CNN)、SSD以及YOLO系列(YOLOv1至YOLOv5)。

2820

被折叠的 条评论
为什么被折叠?



