【人脸识别】MTCNN + Arcface全流程详解 Pytorch代码损失函数发展

最新推荐文章于 2026-05-13 12:51:56 发布

原创

最新推荐文章于 2026-05-13 12:51:56 发布 · 置顶 · 1.5w 阅读

185

标签

#人脸识别 #深度学习 #pytorch

本文详细介绍人脸识别的原理及实战应用，包括损失函数的发展、ArcFace算法、网络模型训练及摄像头实时检测等关键技术。

人脸识别介绍

MTCNN 实现人脸检测，回答了“是不是人脸”和“人脸在哪”的问题，接下来人脸识别要解决的就是“人脸是谁”。
人脸识别是目标识别中的一种，本质上也是分类问题，只不过是同类（人脸）中的细分，因为人脸之间相似度很大，这对损失函数的分类能力提出了更高的要求。

损失函数发展

下面介绍分类损失函数的主要类型和发展历程，及部分pytorch代码。
效果图来自 MNIST 数据集，将网络模型倒数第二层输出通道数设为2，将二维分类特征可视化即可。

Softmax loss

在这里插入图片描述

经典的分类损失 Softmax loss，将正确类别的预测概率最大化。但这种方式只考虑了能否正确分类，没有考虑类间距离。
在这里插入图片描述

Center loss

在这里插入图片描述

Center loss 在 Softmax loss 基础上增加了 $L_C$ 项，给每个类都设置一个中心 $c_{yi}$ ，让该类尽量向中心靠拢，在保证分类的同时，最小化类内距离。

需要注意的是：

Center loss 本身没有分类功能，需要配合 Softmax loss，不能单独使用。
中心 $c_{yi}$ 初始化是随机值，之后随着学习到的特征进行实时更新。
计算每一类的中心损失时，需要除以该类样本数计算均值，防止因样本失衡导致的不同类别梯度更新不同步。
参数 $\lambda$ 控制中心损失优化力度， $\lambda$ 越大区分度越高，但在人脸识别中，经验值一般取0.003即可。

Center loss 在人脸识别上的效果还是不错的，但还有许多不足：

类内距优化效果还不理想。
类内距还是较大，当类别较多时，无法清晰区分特征。
类别多时，对硬件要求较高。
每个类别需要维护一个中心点，当类别很多时计算量大。
L2范数的离群点难以优化。
因为中心损失计算的是每一类损失的均值，离群点导致loss较大，难以下降，同理在loss下降过程中，离群点的优化力度不够，相对仍然离中心很远。
只适用于同类样本间差异较小的数据。
将同类样本向一个中心点优化的前提是，这一类样本间相似度较大，中心点可以代表这一类样本的特征，如果差异很大，就相当于有很多离群点，自然难以优化。可以抽象理解为：一个人的一堆人脸取均值大概还能看出是人脸，而各种类别的狗取均值就完全认不出是什么了。

def center_loss(feature, label, lambdas):
    """
    计算中心损失
    :param feature: 网络输出特征 (N, 2)
    :param label: 分类标签 如 tensor([0, 2, 1, 0, 1])
    :param lambdas: 参数 控制中心损失大小 即类内间距
    :return:
    """
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    # 随机生成一组中心点参数 如 (C, 2)
    center = nn.Parameter(torch.randn(int(max(label).item() + 1), feature.shape[1]), requires_grad=True).to(device)
    # 根据标签索引 生成与feature相对应的中心点 如 (N, 2)
    center_exp = center.index_select(0, label.long())
    # 统计标签中各分类的个数 如 tensor([3, 2]) 代表类别0的样本有3个 类别1的样本有2个
    count = torch.histc(label, bins=int(max(label).item() + 1), min=0, max=int(max(label).item()))
    # 根据标签索引 生成与feature相对应的各类样本数
    count_exp = count.index_select(dim=0, index=label.long())
    
    loss = lambdas / 2 * torch.mean(torch.div(torch.sum(torch.pow(feature - center_exp, 2), dim=1), count_exp))

    return loss