论文笔记-MTCNN-Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network

MTCNN-Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network.

2016.11 Kaipeng Zhang.
https://kpzhang93.github.io/MTCNN_face_detection_alignment/
https://github.com/kpzhang93/MTCNN_face_detection_alignment

摘要
由于多样性的姿势、照明和场景,在非约束环境下人脸检测和校准具有一定挑战性。最近研究表明深度学习方法可以在这两个任务上达到很好的效果。本文提出一个deep cascaded multi-task 框架,利用它们之间内在的联系提高性能。本框架采用一个有三阶段精心设计的深度卷积网络的级联架构以coarse-to-fine形式去预测人脸和关键点定位。另外,在学习过程中,本文提出一个新的online hard sample mining strategy可以不用手动采样选择而自动改善性能。

Introduction
本文提出一个新的框架使用统一的级联CNN通过多任务学习来集成人脸检测和特征点定位两个任务。
提出的CNN包括三个阶段:
(1)通过一个shallow CNN迅速产生candidate windows.
(2)通过一个稍复杂的CNN丢弃大部分没有人脸的windows.
(3)使用一个更强大的CNN精炼结果,同时显示面部特征点定位。设计lightweight CNN可以提高实时性能。

Approach
A. Overall Framework
整体流程如下图所示:对于给定的图片,首先resize到不同的尺寸建立一个image pyramid,作为接下来三层级联框架的输入。

整体框架
图1:整体框架
Stage 1:采用全卷积神经网络,即Proposal Network(P-Net),去获得候选窗体和它们的边界盒回归向量(bounding box regression vectors)。然后,使用估算的边界盒回归向量来校准候选窗体。然后,利用NMS(non-maximum suppression)方法去除高度重叠的窗体。
P-Net

Stage 2:所有候选窗体被送入另一个CNN: Refine Network(R-Net),更进一步地去除大量的错误候选窗体,再使用bounding box regression进行校准和NMS法。

R-Net

stage 3:该阶段类似于第二阶段,但该阶段目的是描述脸部更多细节,显示五个脸部特征点位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值