MTCNN-Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network.
2016.11 Kaipeng Zhang.
https://kpzhang93.github.io/MTCNN_face_detection_alignment/
https://github.com/kpzhang93/MTCNN_face_detection_alignment
摘要
由于多样性的姿势、照明和场景,在非约束环境下人脸检测和校准具有一定挑战性。最近研究表明深度学习方法可以在这两个任务上达到很好的效果。本文提出一个deep cascaded multi-task 框架,利用它们之间内在的联系提高性能。本框架采用一个有三阶段精心设计的深度卷积网络的级联架构以coarse-to-fine形式去预测人脸和关键点定位。另外,在学习过程中,本文提出一个新的online hard sample mining strategy可以不用手动采样选择而自动改善性能。
Introduction
本文提出一个新的框架使用统一的级联CNN通过多任务学习来集成人脸检测和特征点定位两个任务。
提出的CNN包括三个阶段:
(1)通过一个shallow CNN迅速产生candidate windows.
(2)通过一个稍复杂的CNN丢弃大部分没有人脸的windows.
(3)使用一个更强大的CNN精炼结果,同时显示面部特征点定位。设计lightweight CNN可以提高实时性能。
Approach
A. Overall Framework
整体流程如下图所示:对于给定的图片,首先resize到不同的尺寸建立一个image pyramid,作为接下来三层级联框架的输入。
Stage 1:采用全卷积神经网络,即Proposal Network(P-Net),去获得候选窗体和它们的边界盒回归向量(bounding box regression vectors)。然后,使用估算的边界盒回归向量来校准候选窗体。然后,利用NMS(non-maximum suppression)方法去除高度重叠的窗体。
Stage 2:所有候选窗体被送入另一个CNN: Refine Network(R-Net),更进一步地去除大量的错误候选窗体,再使用bounding box regression进行校准和NMS法。
stage 3:该阶段类似于第二阶段,但该阶段目的是描述脸部更多细节,显示五个脸部特征点位置。


740

被折叠的 条评论
为什么被折叠?



