Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition——MS-G3D论文解读

最新推荐文章于 2026-06-17 22:07:45 发布

原创

最新推荐文章于 2026-06-17 22:07:45 发布 · 1.4k 阅读

标签

#人工智能 #深度学习 #卷积 #神经网络 #体感识别

MS-G3D_2020

Author：Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
Paper:https//arxiv.org/pdf/2003.14111.pdf
Github:github.com/kenziyuliu/ms-g3d

在开始前我要吐槽一句，这篇文章原文的语法和用词级别是真的高，语法晦涩难懂长难句一大堆，读时两行泪 T^T…

Problem in past research

在写这篇博客之前，图卷积已经被广泛的用于到人体识别当中，之前的文章有ST-GCN、2s-AGCN、DGNN、AS-GCN…(之前我写过几篇关于这些模型的博客，不了解的读者可以读一读之前的博客了解一下，本篇博客会稍稍复习一下但不会再过多赘述这些模型)，但是他们都在一下两个方面有待提高：

unbiased long-range joint relationship modeling under multiscale operators.
多尺度卷积(在Graph上体现为k阶邻近节点)时存在biased weighting problem，简单来说就是对于不同阶的邻近节点在卷积时分别有不均衡的加权问题。（下面会再详细介绍这个问题具体怎么产生的，这个缺点主要是对AS-GCN提出的）

unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies.
统一的跨时空信息流，用于捕获复杂的时空依赖关系。（这个缺点是对之前所有时空图卷积提出的）

那么这篇文章就主要在解决这两个问题，提出了一种求多尺度图卷积（使其unbiased）的简单方法和G3D时空图卷积算子。

Solution

介绍了早期人体动作识别方法：

Earlier approaches to skeleton-based action recognition treat human joints as a set of independent features,and they model the spatial and temporal joint correlations through hand-crafted or learned aggregations of these features.
早期基于骨架的动作识别方法将人类关节视为一组独立的特征，并通过手工设计特征来建模学习时空关节的相关性。

近两年人体动作识别领域关注的是时空图(spatial-temporal graph),这些时空图的论文大多都使用了图卷积(graph convolutions),但是他们使用的图卷积邻接矩阵(adjacency matrix)有一个问题:
当使用邻接矩阵的k次幂来求其k阶邻接矩阵的时候，会出现biased weight problem问题，那么什么是 biased weight 问题呢？

Solution for biased weight problem

目前我们使用的邻接矩阵的k次幂来求k阶邻居的图卷积公式如下：
$X_{t}^{(l+1)}=\sigma(\sum_{k=0}^{K}\hat{A}^{k}X_{t}^{(l)}\theta_{(k)}^{(l)})\tag{1}$
其中 $\hat{A}=I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$