【经典论文阅读】YOLO-V4论文阅读

本文详细探讨了YOLOv4目标检测模型的结构优化、数据增强、类不平衡处理、边界框目标函数及后处理方法。通过实验研究了不同特征、骨干网络、mini-batch大小对模型性能的影响,展示了如何通过Bag of Freebies和Bag of Specials提升精度和效率。

论文地址

We use new features: WRC, CSP,CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and com-bine some of them to achieve state-of-the-art results: 43.5%AP (65.7% AP50) for the MS COCO dataset at a real-time speed of ∼65 FPS on Tesla V100.

1. 检测模型结构 Object detection models

在这里插入图片描述
对于运行在GPU平台上的检测器,其骨干可以是VGG、ResNet、ResNeXt或DenseNet。
对于那些运行在CPU平台上的检测器,其骨干可以是SqueezeNet、MobileNet或ShuffleNet。

对于Head部分,通常分为one stage(一级目标检测器)和tow stage(二级目标检测器)两种。tow stage: R-CNN系列,包括fast R-CNN、faster R-CNN、R-FCN和Libra R-CNN。也可以使两阶段对象检测器成为无锚对象检测器,如RepPoints。
one stage: 最具代表性的模型有YOLO、SSD和RetinaNet。

近年来,Anchor free(无锚单级目标检测器)得到了发展。这类探测器有CenterNet、cornnet、FCOS等。

近年来发展起来的目标检测器通常在 Backbone 和 Head 之间插入一些层,这些层通常用于收集不同阶段的特征图。我们可以称之为物体探测器的颈部 Neck。通常,一个颈由多条自底向上的路径和多条自顶向下的路径组成。具有该机制的网络包括:特征金字塔网络(FPN)、路径聚合网络(PAN)、BiFPN和NAS-FPN。

在这里插入图片描述

2. Bag of freebies

我的理解是,使目标检测器在不增加训练成本的情况下获得更高的精度。我们把这些只改变训练策略或只增加训练成本的方法称为“Bag of freebies”

2.1 data augmentation数据增强

数据增强的目的是增加输入图像的可变性,使所设计的目标检测模型对来自不同环境的图像具有更高的鲁棒性。
例如,光度失真和几何失真是两种常用的数据增强方法,它们对目标检测任务有明显的好处。在处理光度失真时,我们调整图像的亮度、对比度、色调、饱和度和噪声。对于几何失真,我们添加随机缩放、裁剪、翻转和旋转。

2.2 data imbalance between different classes类不平衡

其他一些 Bag of freebies 专门用于解决数据集中的语义分布可能存在偏差的问题。在处理语义分布偏差问题时,一个非常重要的问题是不同类之间存在数据不平衡的问题。但由于一级目标检测器属于密集预测体系结构,因此实例挖掘方法不适用于这种检测器。

2.3 objective function of Bounding Box边界框目标函数

Bounding Box回归的目标函数

IoU、GIoU、DIoU与CIoU

结论:CIoU在BBox回归问题上具有较好的收敛速度和精度。

3. Bag of specials

只增加了少量推理成本但却能显著提高目标检测精度的插件模块和后处理方法,我们称之为“Bag of specials”

Generally speaking, these plugin modules are for enhancing certain attr

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值