1 名词目录
为了方便查阅,在摘要之前先列出一下本文用到的名词目录。
CNN - Convolution Neural Network 卷积神经网络
RCNN - Region-CNN
SS - Selective Search 选择性搜索
ROI - Region Of Interst 感兴趣区域
RPN - Region Proposal Network 区域推荐网络
bbox - bounding box 边界框
SPP - Spatial Pyramid Pooling 空间金字塔池化
GT - Ground Truth 检测框的真实位置,大小,形状
NMS - Non Maximum Suppression 非极大抑制
2 摘要
本文重点介绍Faster RCNN的结构以及其中的一些注意事项。重点以偏重直观理解为主,不求严谨。对于Faster RCNN网络的训练方法并未在本文中提及。对于Faster RCNN的总体介绍放在了文章的后面,前面先介绍了一些具体组件,如果读者不习惯这样的顺序可以先大致了解下本文的最后一章,然后再从前到后的阅读本文。Fast RCNN提出了将SS找出的ROI映射到CNN网络提取出的feature map上的方法(ROI projection)。而Faster RCNN 也继承了这一思路,并且在此基础上参考了SPP-Net中的思想对ROI的提取方式做了改进。本文先简要介绍了ROI projection及其“配套”操作ROIpooling,然后介绍了Faster RCNN对Fast RCNN的改进——RPN的引入。如果你已经了解过Fast RCNN,那么请直接跳到RPN部分开始阅读。如果本文中有理解不对或者不到位的地方欢迎指正!阅读本文之前需要对RCNN (RCNN 论文重点摘要简记) 的基本内容进行了解,不需要完全理解,只需要明白大概的技术路线 。

3 ROI 的特征提取
这里先介绍一下Faster RCNN中用到的一个很重要的组件,之所以放到开头,是因为这个组件继承自SPP-Net和Fast RCNN,本文作为一个前提知识来预先说明。
ROI(感兴趣区域)的命名非常巧妙,如果将目标检测任务比作零件加工任务的话,ROI就相当于铸造生产的零件毛坯,虽然和成品相差很大,但至少为后续的车削精加工过程减少了许多需要的进给量。对于目标检测,对ROI进行正例判定和bbox回归就相当于这个精加工的过程,如果没有ROI的话,我们就需要使用类似划窗的方式尽量穷举所有可能的边框,再对所有的边框进行正例判定和bbox回归。
实际上我们通常对于ROI精度的要求并没有那么高,我只要求在这一步提取“感兴趣”的区域,并不要求这个区域内绝对包含目标物体或者要求这个区域形状完全正好包裹住目标物体,这些精细的操作可以留给后面的环节进行。
在RCNN,提取ROI的方式是SS,这点在Fast RCNN中也有继承(不过在Faster RCNN中移除了,后文中会详细说明)RCNN会用一个C

本文深入解读了FasterRCNN中的关键组件,包括ROI投影、ROI池化和RPN区域提议网络,重点介绍了如何从原始图像通过CNN提取ROI特征并进行目标检测的改进。RPN的引入简化了ROI提取流程,提高了速度和精度。阅读前需了解RCNN基础知识。

5345

被折叠的 条评论
为什么被折叠?



