[人脸关键点检测] Adaptive Wing loss 论文阅读

最新推荐文章于 2026-03-30 02:16:56 发布

原创

最新推荐文章于 2026-03-30 02:16:56 发布 · 4.1k 阅读

标签

#wing loss #Adaptive wing #热图回归人脸关键点 #人脸关键点检测 #人脸对齐

提出AdaptiveWingLoss损失函数，用于基于热图回归的人脸关键点检测，改进了WingLoss，解决了MSE损失的问题，提高了前景像素的小误差敏感度，容忍背景像素的小误差，加速收敛。引入加权损失图，解决像素类别不平衡，专注前景和困难背景像素，使用CoordConv编码坐标信息，辅助网络学习。

转载请注明作者和出处： http://blog.csdn.net/john_bh/

ICCV链接:Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
Arxiv链接:Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
作者及团队：俄勒冈州立大学（美国） & JD Digits
会议及时间：ICCV 2019
code:原作者开源github 地址

文章目录

1.主要贡献

这是一篇在人脸关键点检测中基于热图回归的损失函数研究。

改进了wing loss ,提出了基于热图回归的Adaptive wing loss，它能够使其形状适应不同类型的 ground truth heatmap pixels,自适应属性可减少前景像素上的小误差，以实现精确的 landmark 定位，同时容忍背景像素上的小误差，以实现更高的收敛速度；
提出了加权损失图，解决前景像素和背景像素之间的不平衡问题，能够在训练过程中专注于前景像素和困难的背景像素，有助于使得前景回传更大的loss，背景传递更小的loss，使得训练效果更好；
使用CoordConv 对坐标信息包括边界坐标信息进行编码，更像一种attention机制，有助于网络学习到更好的效果；
提出了将关键点的边界Boundary和关键点landmark一起训练的思路；
Adaptive wing loss还有助于其他热图回归任务，例如人体关键点。

2. 总体框架

如图3所示，整个框架有 4 个hourglass模块，输入 $256 * 256$ 大小的人脸图像，会对该图像进行长宽各10%的扩充，输出图像大小为 $64 * 64$ ，预测的特征图包含c个通道的 landmarks 和1个通道的 boundary。其中，landmarks表示人脸关键点，一个channel预测一个点，boundary表示人脸轮廓的分割的线，Landmarks+boundary一起预测有助于促进网络学习的更好。
在这里插入图片描述

3. Adaptive wing loss

3.1 相关方法的调研

基于heat map 回归的关键点检测：

在热图回归中，通过绘制以每个通道的的每个 ground truth 为中心的高斯分布，生成 ground truth heat map。

模型在像素水平上针对ground truth heat map进行回归，然后使用预测的热图来推断 landmark 位置。

如图1所示，前景像素（具有正值的像素）的预测准确性，尤其是接近每个高斯分布模式的像素（图1）,对 landmark 预测至关重要，即使这些像素上的很小预测误差也可能导致预测偏离正确模式。相反，准确预测背景像素（具有零值的像素）的值并不重要，因为这些像素在大多数情况下不会影响 landmark 预测。但是，对困难的背景像素（图1 中difficult background）的预测精度也很重要，因为它们经常被错误地回归为前景像素，并可能导致不准确的预测。

作者分析了MSE损失，在基于heat map 回归中使用MSE存在两个问题：

	1. MSE对小误差不敏感，这将会影响高斯分布模型的表现;
	2. 在训练过程中，MSE对所有像素采用相同的权重，但是背景像素比前景像素多很多，存在像素类别不平衡问题

如图2所示，MSE损失训练的模型倾向于预测前景像素上具有低强度的模糊且膨胀的热图（图2c），而这些低质量的heat map 会导致错误的landmark 预测。作者尝试使用 wing loss，发现背景像素上的小误差将累积明显的梯度，从而导致训练过程发散。所以作者提出 Adaptive Wing loss。

对于热图回归，训练收敛于：

N 是训练样本数目；H,W,C分别表示 heatmap 的高，宽，和通道； $Loss_n$ 表示第 $n$ 个样本的损失； $y_{i,j,k} 和 \hat y_{i,j,k}$ 分别别表示 ground truth 像素和预测的像素。

因此，具有较大梯度幅度的像素上的正误差（影响较大）将需要通过具有较小影响的许多像素上的负误差来平衡。与梯度大小较小的错误相比，梯度大小较大的错误也将在训练期间更加关注