姿态估计Bottom-up系列中的Grouping方式三：PersonLab

最新推荐文章于 2024-02-21 12:56:31 发布

原创

最新推荐文章于 2024-02-21 12:56:31 发布 · 2.8k 阅读

标签

原文：PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model
代码：octiapp/KerasPersonLab

Abstract

略

Introduction

略

Related work

略

Methods

Person detection and pose estimation

文章提出了一种box-free的bottom-up的姿态估计方法。方法包含连续的两步：

检测K个关键点。
把他们聚类成人体实例。

Keypoint detection

这个阶段的目的是，以实例无关的方式检测出所有人的所有可见关节点。文章生成heatmaps和offsets。对于heatmap，每一个关节一个通道；对于offset，每一个关节两个通道分别表示水平和垂直方向。

假设 $x_i$ 是图片中的一个2D位置，其中 $i = 1, . . ., N$ 是图中坐标的索引， $N$ 是像素的个数。假设 $D_R(y) = \{x:\left \| x-y \right \| \leq R\}$ 是以 $y$ 为中心的半径为 $R$ 的圆盘。假设 $y_{j,k}$ 是第j个人体实例的第k个关键点， $j = 1, . . ., M$ ，其中 $M$ 是图中人体实例的个数。

对于每一类关键点 $k = 1, . . ., K$ , 我们设置一个分类任务，我们为所有人体实例预测一个heatmap $p_k$ , $p_k(x) = 1$ 如果 $\in D_R(y_j,k)$ ，否则 $p_k(x) = 0$ ，因此我们有K个独立的稠密二分类任务，每个任务对于一个关键点类别。每个都相当于预测图像中所有人的特定关键点类型周围半径为 $R$ 的圆盘。训练时，我们使用 logistic loss 来计算整张图片的 heatmap loss，并回传。除了图片中没有被完全标注好的区域（如拥挤场景，小尺寸的人体实例等）。