faster rcnn中rpn层关于前景背景的处理方式

最新推荐文章于 2026-02-17 04:27:21 发布

原创最新推荐文章于 2026-02-17 04:27:21 发布 · 1k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

在经过4个下采样层获得feature map之后，这个featuremap会分别做两次卷积，一个卷积用于做前景背景的分类，另一个用于做boungding box的回归。前者的outfeature 数量为一个像素点对应anchor的数量，后者为前者数量*4（xywh）。
本文分析前者。

define bg/fg classifcation score layer

    self.nc_score_out = len(self.anchor_scales) * len(self.anchor_ratios) * 2 # 2(bg/fg) * 9 (anchors)
    self.RPN_cls_score = nn.Conv2d(512, self.nc_score_out, 1, 1, 0)

在forward函数中

return feature map after convrelu layer

    rpn_conv1 = F.relu(self.RPN_Conv(base_feat), inplace=True)

get rpn classification score

    rpn_cls_score = self.RPN_cls_score(rpn_conv1)

下面重点来了
rpn_keep = Variable(rpn_label.view(-1).ne(-1).nonzero().view(-1))
首先获得label中不是-1的索引。
rpn_cls_score = torch.index_select(rpn_cls_score.view(-1,2), 0, rpn_keep)
这里把rpn_cls_score reshape成n*2的矩阵再按索引去查找。这个2就是指前景和背景的概率。说是binary_cross_entropy实际上下面用的函数是
self.rpn_loss_cls = F.cross_entropy(rpn_cls_score, rpn_label)
所以对于二分类要获得两个类的值。
永远记住不管是用nn.linear还是用torch.view方法，输出的元素个数都是tensor.shape[-1]

对于torchvision中的faster rcnn。用的是binary_cross_entropy_with_logits,处理方式是将rpn_cls_score flatten成1维的，然后按索引去做loss。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aoluming

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RPN遇到的坑

IT_BOY__的博客

05-08

763

RPN的作用在于较为准确的选择前300个推荐框，前2篇论（RCNN,Fast-RCNN）用的是Selective Search方法, 贪婪地合并基于低层次特征的像素，产生2000个推荐框，效率低。本文主要讲解RPN网络层及其损失函数，遇到过的坑和疑惑的地方在这里记录一下，便于今后回顾。涉及到的内容过多，请参考： Faster-RCNN论文地址 1、RPN模型要点1：在每个滑动窗口的中心（经过...

5 条评论您还未登录，请先登录后发表或查看评论

Faster R-CNN理解、讨论

沈春旭的博客

09-30

2万+

论文 : Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. PAMI2017. GitHub : 1. matlab version : https://github.com/ShaoqingRen/faster_rcnn 2. python version :...

Faster-RCNN的关键点总结

I-am-Unique

08-31

9059

“ 要得到，你必须要付出，要付出，你还要学会坚持。如果你真的觉得很难，那你就放弃，但放弃你就不要抱怨。” 2018年8月31日12:00:00 8月的最后一天了~ 真的好累坚持，再坚持。一想到上了这么多年学就是为了现在，就~ 好吧，不废话了把自己最近总结的关键点记录下来：先解释下吧（自己总结的）： Faster-R...

目标检测之Faster RCNN详解

Just_do_myself的博客

04-13

8561

导读：Faster-RCNN发表于NIPS 2015上的一篇论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》。该算法最大的创新点是提出了RPN（Region Proposal Network）网络，利用Anchor机制将区域生成与卷积网络联系到一起，将检测速度一举提升到17 FPS，而且在VOC 2012测试集上实现了70.4%的检测效果，在当时可谓是以一己之力将目标检测推向了实时的高潮。后面

【15】Faster-RCNN网络详细解读

qq_33612665的博客

12-18

7153

【1】前言最近博客上看了很多篇关于Faster-RCNN网络详细解读，但是始终对其中的解释一知半解。刚开始以为自己懂了，有看了一些发现自己又困惑了，这个东西到底是什么，是怎么训练的？怎么传播的？里面的名词究竟是什么意思？看的始终是一知半解。对于Faster-RCNN的网络的用途以及Faste-RCNN和RCNN原理此处不讲解，只讲解Faster-RCNN的网络，对其进行详细的剖析。【2】Faster-RCNN网络框架 ...

Faster-RCNN论文总结

晓峰博客笔记

05-14

1090

1、主要解决的问题：（1）提出区域建议网络RPN（Region Proposal Networks），快速生成候选区域；（2）通过交替训练，使RPN和Fast-RCNN网络共享参数（共享卷积层）。2、比较RCNN、Fast RCNN、Faster RCNN 3、Faster RCNN结构核心 FasterRCNN结构：区域生成网络RPN + FastRCNN; 用区域生...

faster-rcnn学习理解

weixin_42358997的博客

11-03

577

（faster-rcnn原理） R-CNN (1)输入测试图像； (2)利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal(候选区域）； (3)将每个Region Proposal缩放(warp)成227*227的大小并输入到CNN，将CNN的fc7层的输出作为特征； (4)将每个Region Proposal提取的CNN特征输入到SVM进行分类； (5)对于SVM分好类的Region Proposal做边框回归，用Bounding box回归值校正

Faster RCNN中的RPN网络：从9个Anchor到2000个候选框的完整流程解析

最新发布

tt34567的博客

02-17

609

本文深入解析Faster R-CNN中的区域建议网络（RPN）从Anchor生成到候选框筛选的完整流程。详细介绍了RPN的核心架构、Anchor机制、正负样本筛选策略以及工程实现中的关键细节，帮助读者全面理解这一目标检测领域的重要技术。

faster rcnn 原理解读

WYR_try的博客

05-26

1467

简介 Faster R-CNN 第一步是采用基于分类任务(如，ImageNet)的 CNN 模型作为特征提取器. 听起来是比较简单的，重要的是理解其如何工作和为什么会有效，并可视化中间层，查看其输出形式. 网络结构很难说哪种是最好的. Faster R-CNN 最早是采用在 ImageNet 训练的 ZF 和 VGG，其后出现了很多其它权重不同的网络. 如，MobileNet 是一种小型效率高的网...

Faster RCNN原理及Pytorch代码解读——RPN（三）：RPN训练标签的生成

weixin_41693877的博客

07-05

2317

上一篇大体介绍了RPN的网络结构，这一篇开始介绍RPN训练时标签是怎么生成的，以及使用了什么样的损失函数。 RPN真值上一篇已经知道了RPN两个分支的输出了，分别是18×37×50和36×37×50（9个锚框的前景背景分类预测和中心点横纵坐标及宽高这4个量相对于真值的偏移量）。预测值有了，想要训练网络，还需要知道真值。在介绍怎么生成真值时，还要多解释几句基础知识，如果已经知道这部分知识的跳过就好了。 RPN的真值究竟是什么？对于物体检测任务来讲，模型需要预测每一个物体的类别及其出现的位置，即类别、

faster-rcnn中，对RPN的理解

爱CV

12-18

1924

先放两张图，上面是原文中对RPN的原理说明；下图是k个anchor boxes(k=9)的生成。原文中rcnn部分的截图（上面anchor boxes示意图都是转自其他人的博客）一. anchor boxes基本概念与作用: 特征图上的一个点可以映射回输入图上的一个点，以特征图上这个点为中心，预先人为设定k个boxes，这些boxes就称为在这个点上生成的k个anchor boxes（所有anchor boxes的中心点坐标是一样的）。一个m*n的特征图就有m*n*k个anchor

深度学习：应用于机器视觉领域的卷积神经网络(CNN)简介

Yancy的博客

03-13

2万+

白话解读Faster RCNN论文

SQAHJSW的博客

06-04

495

白话解读Faster RCNN论文背景介绍 Faster RCNN是在Fast RCNN上做出的优化，是由RBG和何凯明大神共同研发的，这是他们的第一次合作，当时何凯明还是微软亚洲研究员，RBG也是微软的研究院。对于与何恺明的合作，RBG大神表示非常满意，至少对美国和北京之间的时差很满意。他说俩人加一起，每天可以高效工作24小时。之后RBG跳槽到了Facebook。而何恺明，在微软亚洲研究院和导师孙剑一起，完成了后来甚至被称为图像识别算法顶峰的ResNet。第二年，何恺明也加入了Facebook，搬到了

计算机视觉与深度学习 | 基于Faster R-CNN的目标提取（源代码）

尘世冰封的专栏

01-26

1069

################################################ 博主github：https://github.com/MichaelBeechan 博主CSDN：https://blog.csdn.net/u011344545 ################################################ 基于Faster R-CNN的目标提取问题深度学习 Faster R-CNN 的多帧背景还原解决动态背景的问题。针对动态背景下的目标提取问题。

[ 目标检测 ] 经典网络模型3——Faster R-CNN 详解与复现

A_John 的博客

05-09

7590

[ 目标检测 ] 经典网络模型3——Faster R-CNN 详解与复现； 1、Real-Time Object Detection with RPN； 2、Faster R-CNN 详解； 3、Faster R-CNN 复现；目前先进的目标检测网络如 SPP-Net 和 Fast R-CNN 都采用区域建议算法假设目标位置；这些网络都缩短了检测网络的运行时间，但区域建议计算依然是目标检测任务的瓶颈问题；基于此，提出了一个区域建议网络RPN，实现与检测网络共享输入图像的卷积特征；

faster rcnn解读【原理篇】

mdjxy63的博客

08-18

3513

看了DL4CV的第三卷的15章faster rcnn之后，收获很多，特此做一下记录一.RCNN RCNN一共分为四步： step1:输入图片 step2:采用selective search的方法获取潜在的roi,一共提取了2000个潜在roi，然后放入conv当中进行训练 step3:使用迁移学习【用到了conv层】方法，提取step2的特征，从而获得最终的roi ste...

一文读懂 R-CNN，Fast R-CNN，Faster R-CNN 发展史

CatOneTwo的专栏

05-06

1867

任务描述目标检测是为了解决图像里的物体是什么，在哪里的问题。输入一幅图像，输出的是图像里每个物体的类别和位置，其中位置用一个包含物体的框表示。需要注意，我们的目标，同时也是论文中常说的感兴趣的物体，指我们关心的类别（行人检测只检测人，交通检测只关心交通工具等），或者数据集包含的类别，并不是图像里所有的物体都是目标，比如建筑，草坪也是物体，但他们常常是背景。从计算机视觉的角度看，目标检测是分...

详解 Faster R-CNN目标检测的实现过程

爱CV

05-06

1391

背景 Faster R-CNN 最早在 2015 年的 NIPS 发布。其在发布后经历了几次修改，这在之后博文中会有讨论。Faster-RCNN 是 RCNN 系列论文的第三次迭代，这一系列论文的一作和联合作者是 Ross Girshick。这一切始于 2014 年的一篇论文「Rich feature hierarchies for accurate object detection and semantic segmentation」(R-CNN)，其使用了称为 Selective Search.

RPN的理解，大家来指正

yuejich的博客

08-12

335

vgg16-input：一张图片，8008003的rgb图像特征提取层：vgg16，16倍下采样 vgg16-output：5050512的feature map rpn-input=vgg16-output=5050512 rpn的第一层可以理解为256个33的卷积核对feature map进行滑窗 rpn-output1=5050256或者说是2565050， anchor的生成，可以认为是在5050256的特征图上的每一个像素点生成3个尺度3个比例的anchor box，也就是9个anchor bo

Faster R-CNN论文笔记——FR