2015 - A Convolutional Neural Network Cascade for Face Detection

最新推荐文章于 2024-01-24 16:58:19 发布

原创最新推荐文章于 2024-01-24 16:58:19 发布 · 392 阅读

本内容遵循CC 4.0 BY-SA版权协议

0 篇文章

订阅专栏

本文介绍了一种级联CNN人脸检测方法，通过级联多个网络（12-net、24-net、48-net）实现高效准确的人脸检测。每个网络阶段负责候选窗口的人脸分类与位置校正，同时介绍了训练样本的获取方式。

Cascade CNN Face Detection

级联人脸检测：每个阶段对候选窗口做人脸分类，判断是否是人脸。前面的stages使用低分辨率的图片，可以快速rejects非人脸后候选；后面的stages使用高分辨率图片，精确判断人脸是否存在。

滑窗获取候选：
- 1.image pyramid
- 2.resize image pyramid by 12/F, (F is the acceptable minimum face size)
- 3.densely scanning image pyramid of size W*H with filer of 12 pixels, stride of 4 pixels, get $[(W-12)//4 + 1] * [(H-12)//4 + 1]$ face candidates(“//“向下取整)
12-net人脸分类：轻量CNN对face candidates 进行分类，过滤不是人脸的候选
12-calibration-net矫正size and location：
对人脸进行矫正，包括size (w，h)，locations （x, y）of top-left corner. 采用分类模型进行矫正，矫正patterns 包含5种size 缩放，x 方向3种平移和 y 方向3种平移，共45类。将12-net人脸分类剩下的人脸候选窗口(x, y, w, h)调整到 $(x - \dfrac{x_n w}{s_n}, y-\dfrac{y_nw}{sn}, \dfrac{w}{s_n}, \dfrac{h}{s_n})$ 。取分类得分大于阈值 $t$ 的 pattens平均值作为真正的矫正pattern，根据此pattern对候选窗口进行缩放和平移，在相同scale的图片上做NMS。
24-net人脸分类： 和12-net过程相似，只是额外使用了输入图片的12-net fully-connected特征，即multi-resolution structure
24-calibration-net矫正size and location
48-net人脸分类
48-calibration-net矫正size and location： 和前面的calibration-net过程相似，不同点是NMS是global的。

分类网络training samples获取: 搜集了5800张background images for negative training samples，use faces in the AFLW as positive samples.
24-net negative samples mining：使用12-net和12-calibration-net在AFLW子集上选择阈值 $T_1$ 保证99%的召回率。选取background images种分类得分大于阈值 $T_1$ 的窗口作为24-net的负训练样例。
48-net negative samples mining：使用12-net，12-calibration-net， 24-net和24-calibration-net在AFLW子集上选择阈值 $T_2$ 保证97%的召回率。选取background images种分类得分大于阈值 $T_2$ 的窗口作为48-net的负训练样例。
校准网络training samples获取：将FAFLW种的人脸做N=45 calibration patterns perturb。for the $n-th$ pattern $[s_n, x_n, y_n]$ , apply $[1/s_n, −x_n, −y_n]$ (following Equation 1) to adjust the face annotation bounding box, crop and resize into proper input sizes (12×12, 24×24 and 48×48).