Day-1 目标检测-简单的目标定位

本文探讨了目标检测的基本概念,包括目标定位、特征点检测及目标检测的方法。介绍了如何利用卷积神经网络进行目标定位,通过附加的输出单元表示边界框的位置参数。讨论了特征点检测的应用,以及目标检测中滑动窗口方法的效率问题。

目标检测

目标定位

简单的图片分类,将一张图片输入到多层卷积神经网络中,他会输出一个特征向量,并反馈给softmax单元来预测。
图中只能判断是否存在物体和物体的种类,并不能判断车的位置
如果想识别出汽车的位置,就需要在神经网络多输出几个单元,用来表示框的位置,标记为bx、by、bw和bh,表示边界框的位置的参数化。规定图片的左上角坐标为(0,0)右下角为(1,1),bx、by、bw和bh均为0到1的数。

目标标签的定义如下:y=[Pc,bx,by,bw,bh,C1,C2,C3]T (T是转置)
Pc 是否含有对象
C 对象的类型(对多种类型的训练与识别需要用到softmax,还未理解

针对这个目标定位问题,图片中只能有一个物品或没有物品。

看几个样本

训练集图片包含物体的图片
这是一张训练集图片,Pc=1 ,C2=1
训练集图片没有物体的图片
这时Pc=0,y的其他参数将毫无意义。
最后 神经网络的损失函数为平方差函数
在这里插入图片描述
在这里插入图片描述
以上就是目标的定位

特征点检测

与目标定位类似,在图片放入多层卷积神经网络后输出标注的特征点的坐标
在这里插入图片描述
如图根据特征点的相对位置可以判断目标物体的动作。

要明确一点,特征点1的特性在所有图片中必须保持一致,就好比,特征点1始终是右眼的外眼角,特征点2是右眼的内眼角,特征点3是左眼内眼角,特征点4是左眼外眼角等等。

目标检测

在这里插入图片描述
训练集采用图中的X的图片,标注有汽车的图片需要整张图都被汽车所占据。
有汽车的图片卷积网络输出y=1或0表示有无汽车。
训练完成后即可进行滑动窗口检测。

滑动窗口

滑动窗口检测不论是通过卷积网络进行还是在卷积层上应用效率都很低。
这里需要注意的是全连接层和卷积层之间的转化。
在这里插入图片描述
上图第一行为经过卷积层后添加全连接层,最后通过softmax输出y。
第二行为讲卷积层转化为全连接层。使用的是1*1过滤器

滑动窗口检测在不管是通过卷积网络进行还是在卷积层上进行效率都很低而且都无法保证识别框的位置准确。

Day-1结束

这是简单的目标定位
之后的boundingbox、极大交互比和非极大值抑制讲集中在yolo3里详述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值