论文学习：Occlusion Robust Face Recognition Based on Mask Learning

最新推荐文章于 2026-01-06 11:44:58 发布

原创

最新推荐文章于 2026-01-06 11:44:58 发布 · 2.6k 阅读

标签

#人脸识别 #算法 #计算机视觉

提出一种基于掩膜学习和PairwiseDifferentialSiameseNetwork的遮挡鲁棒性人脸识别方法，通过学习遮挡区域与特征损失的关系，构建特征丢弃掩膜字典，有效提升遮挡环境下的人脸识别性能。

论文地址：Occlusion Robust Face Recognition Based on Mask Learning
with Pairwise Differential Siamese Network

综述

深度卷积网络作为人脸识别领域的前沿技术，存在识别模型在有部分遮挡的人脸场景效果不佳的情况。作者根据人视觉系统注意力机制，会自动忽略被遮挡的部分的性质，提出一种掩膜学习策略，来处理人脸识别中特征损失的情况。

该策略首先设计一种新型网络pairwise differential siamese network(PDSN)来采集有遮挡和无遮挡人脸对在顶层卷积特征上的差异，建立mask dictionary，记录遮挡区域和特征损失上的关系；
当处理有遮挡的人脸图像时，从mask dictionary中选取关联项合并，并与提取人脸特征相乘，以消除特征损失的影响。

背景介绍

深度卷积网络在无约束人脸识别领域取得显著进步，研究人员主要通过采用先进的网络结构或者设计新的损失函数来提高模型的性能，目前已经在一些基准人脸库中超过了人的识别能力。

但这些模型在姿态、面部表情、光照、遮挡情况下仍未达到完美的鲁棒性，而遮挡对模型的影响是当前最需关注的方向。在真实场景中包括人脸配件（太阳镜、面巾、口罩）获取一些随机物品（书、杯子）。当模型没有对大量遮挡图像进行过训练，遮挡的图像会导致类内方差大，类间间隔小。由此提出两种解决方法：

一种解决办法是训练又遮挡情况下的识别模型，比如通过合成遮挡的方式进行训练数据增广。这种方法会取得性能提升，但它只能保证特征对更多局部区域进行均匀提取，并不能本质上解决遮挡对识别的影响。不同遮挡情况的人脸特征始终存在差异，如相较于戴了太阳镜，无遮挡的人脸特征在人眼区域承担了更多的信息，除非模型训练的时候不使用人眼区域（当然这是不合理的）；
一种是本文方法。作者受人眼视觉系统忽视掉遮挡区域，只关注非遮挡区域来识别的特性，提出抛弃被遮挡的特征元素，因此面临的问题为如何确定被随机遮挡的部分会破坏哪些特征元素？传统方法如LBP、HOG、SIFT等输出特征保留了输入图像的空间关系，因此找到对应的特征并不是大问题，但深度卷积网络并不是这样。因此本文的工作是找到人脸遮挡破坏的特征元素，并在人脸识别时消除它们的影响。

要学习到被遮挡区域与受损特征的关系，作者提出PDSN网络结构，通过遮挡生成模块输出的有遮挡和无遮挡人脸作为一对输入数据。其中有遮挡和无遮挡人脸特征的差分信号会反馈回mask generator，使它发挥注意力机制作用，鼓励模型偏重由于人脸部分遮挡导致输出特征差异更大的部分。

mask generator的损失函数是两个损失的加权：两张图像卷积特征间对比差异、有损识别的遮挡分类。由于模型的识别性能下降通常是由人脸的部分关键块被遮挡导致的，因此对人脸划分预定义的几个区域，只使用这些区域被随机遮挡的照片进行下一步训练。
将这些训练好的PDSN通过二值化构建mask dictionary，使字典中的每一个元素都是一条二进制掩码，可以将人脸被遮挡部分对应的特征置为0，被作者称之为Feature Discarding Mask（FDM）。这样在识别的时候将两张人脸中出现遮挡部分的特征都置0，消除遮挡对计算两张人脸相似度的影响。

总结：作者在处理遮挡人脸识别时，相较于不使用容易被遮挡的人脸区域提特征，选择找出人脸遮挡区域和人脸特征对应关系，将被遮挡区域的特征禁止参与相似度比对。

类别	方法	缺点
传统方法	将人脸划分为多个区域，使用如SVM识别各区域是否被遮挡，使用未遮挡的区域做识别	使用浅层特征，模型性能不高
传统方法	使用稀疏约束项将训练集图像进行线性组合，来解释被遮挡区域，从而构造出无遮挡人脸	需要测试集与训练集类别相同
深度学习方法	发挥DeepID2+算法模型本身具备的鲁棒性	特征来自多张合成，识别需要特定角度
深度学习方法	通过合成遮挡图像来增加训练数据，更均衡的从更多局部区域提取特征，提升模型从可能遮挡的人脸中提取更有辨别能力的特征	——
深度学习方法	在模型中间层添加MaskNet分支，对有遮挡的区域分配更低的激活权重	中间层的输出特征没有足够的辨别能力，添加的MaskNet分支缺乏足够的监督信息进行训练
深度学习方法	设计LSTM自编码器，恢复被遮挡区域	不能保证恢复部分能匹配上，特别是开集测试时候

算法设计

总体结构
本文提到的算法策略可分为三个步骤：

提出并训练PDSN，获取人脸遮挡区域与未遮挡情况下的对应关系；
根据对应关系建立FDM；
测试时，根据遮挡关系，从FDM中生成掩码并与输入图像提取的特征相乘，消除遮挡的影响。

Mask Generators

送入提特征模型的人脸通过提取的关键点进行对齐，作者将对齐后的人脸划分成不重叠的N*N个区域，对每个区域训练一个Mask Generator，并以此寻找到该人脸块被遮挡下人脸特征的损失关系。对于作者手里的训练集，当N=5时，对齐的人脸划分的区域可以和人脸五官建立关系。

如何学习一个Mask Generator，从而使人脸某一快区域被遮挡时的输出特征和这个Mask Generator相乘，能消除遮挡损坏的特征，作者给了两种方法：

特征选择。人脸识别特征通常指分类层前的全连接输出结果，但是FC层的每个一个元素都包含了上一层全部的输出结果，所以全连接层最后的输出特征可能混合了遮挡和未遮挡区域。作者通过对比不同身份人脸对在遮挡相同区域时，在全连接层和最后一个卷积层的输出差异得出结论，全连接层的输出基于“身份”标签，具有高度的可选择性。而卷积层的输出在具备足够的局部特征信息时，遮挡破坏的特征具有空间对应关系。因此作者选择使用最后一个卷积层的输出作为所需特征。
Mask Generators 的输出维度。有相关研究采用2维掩膜来对3维卷积特征进行处理，这意味着卷积特征在C通道上相同的空间位置共享权重，这是建立在卷积所有通道的输出响应在发生遮挡时是等同的这一假设上的。作者为了验证这一假设，使用“median relative rate of change ”（MED）的标准来获取发生遮挡后每个特征元素在偏离真实特征值的程度。具体过程为，将CASIA-WebFace随机选择N张，与添加遮挡的组队计算每个特征元素变化率，并最终计算出每个特征元素变化率的中值。如果发生遮挡时某一特征元素的MED很高，那它将是影响人脸识别的主要噪声之一。实验结果表明每个位置的特征值在卷积不同通道下变化方式是不同的。这表明最后一层卷积的不同通道虽然输入来源相同，但对于遮挡的反应存在差异，因此Mask Generators应该与最后一层卷积是相同规模。

PDSN
$\begin{aligned}\\ L_{\theta}=&\sum_i{l_{cls}(\theta;\widetilde{f}(x_j^i),y^i)+\lambda l_{diff}(\theta;\widetilde{f}(x_j^i),\widetilde{f}(x^i))} \\ &l_{cls}(\theta;\widetilde{f}(x_j^i),y^i)=-log(p_{y_i}(F(\widetilde{f}(x_j^i)))) \\ &\widetilde{f}(x_j^i)=M_\theta(.)f(x_j^i)\\ &l_{diff}(\theta;\widetilde{f}(x_j^i),\widetilde{f}(x^i))=||M_\theta(.)f(x^i)-M_\theta(.)f(x_j^i)||_1 \\ &M_\theta(.)=M_\theta(|f(x_j^i)-f(x^i)|)\\ L_{\theta}=&-\sum_i{log(p_{y_i}(F(M_\theta(.)f(x_j^i)))) + \lambda||M_\theta(.)f(x^i)-M_\theta(.)f(x_j^i)||_1} \end{aligned}$