Relation-Aware Pedestrian Attribute Recognition with Graph Convolutional Networks

本文介绍了一种利用图卷积网络(GCN)改进行人属性识别的新框架。通过属性关系模块(ARM)和上下文关系模块(CRM),该框架有效捕捉了属性间及上下文关系,实现在RAP、PETA和PA-100K数据集上的优秀表现。

动机:
1.大多数工作只使用简单的多任务学习(MTL)框架来利用多个属性之间的关系,其中不同属性之间的信息交换只允许在共享的低级层中进行。由于MTL利用最后一层的损失来指导学习,因此不同属性之间的显式信息交换和传播可能不够充分。
2.虽然深卷积网络在行人属性识别方面取得了很大的成功,但是上下文关系并没有得到充分的利用。这是因为根据研究结果,这些深卷积网络中单位的感受野受到了严重的限制。
贡献:
(1) 提出了一种新的端到端统一框架,利用GCN来捕获行人属性识别中的属性和上下文关系;
(2)提出了两种新的图结构构造方法,一种是利用约束损失学习到的属性特征来构造图,另一种方法是利用图投影的方法将区域/像素簇定义为节点。;
(3)我们在三个行人属性识别基准数据集(包括RAP、PETA和PA-100K数据集)上获得了最新的性能。
框架:
在这里插入图片描述

该框架包括两个图形模块,分别命名为属性关系模块(ARM)和上下文关系模块(CRM),分别用来发现和捕捉属性和上下文关系。在ARM中,我们首先通过每个特征对应于一个属性的约束损失来学习属性特定的特征。然后,每个学习到的特征将被视为图中的一个节点。在CRM中,我们将区域/像素的簇定义为图的节点。考虑到人体姿态和摄像机视角的变化,我们让网络学习如何独立地对区域进行聚类,而不是像以前那样使用预先定义好的区域。在这两个图中,消息被允许在它们的节点之间传播,并进一步利用GCN层来捕捉它们之间的关系。两个网络并行,同时学习。
ARM
首先通过ResNet-50提取高层特征,然后根据高层特征提取出具有S个全连接层的属性特定特征,每个全连接层对应一个属性。然后经过一个GCN网络来探索多个行人属性之间的关系。公式为
在这里插入图片描述
在这里插入图片描述是一个可学习的邻接矩阵,通过与在这里插入图片描述进行卷积,其为d1,d为输入特征的维数,然后与归一化相邻矩阵相乘,输出为S1的矩阵,每个输出对应一个属性。
生成预测分数:
在这里插入图片描述
CRM
关注不同图像区域的上下文关系。首先采用图形投影方案将二维特征映射投影到一组簇/节点中,节点个数为v。
采用软分配方案计算,将第p个像素在这里插入图片描述的分配给第k个簇的权值。
在这里插入图片描述
然后给定v个可学习锚点,利用残差的加权平均值对第k个节点进行聚合。
在这里插入图片描述
然后进行L2标准化。这样不同的节点包含了来自不同图像区域的特征。
然后将标准化的矩阵输入GCN,通过下面的公式更新节点状态。
在这里插入图片描述
分数预测:
在这里插入图片描述
损失函数
损失函数包括三部分,三部分均是二元交叉熵损失
第j个属性的约束损失为
在这里插入图片描述
在这里插入图片描述
其中ρij是用于缓解行人属性识别中数据不平衡问题的惩罚系数。假设rj表示具有jth属性的图像的比率。
yij=1时,ρij=在这里插入图片描述,否则ρij=在这里插入图片描述
在这里插入图片描述
总的损失函数为
在这里插入图片描述
实验:
在RAP、PETA和PA-100K数据集三个数据集上进行实验
在这里插入图片描述
在这里插入图片描述
参数分析:
针对总体损失函数中的lambda1和lambda2进行调整,lambda3保持不变为1;针对不同特征维数进行分析,在32维取得了比较好的结果;对CRM的节点数量进行了实验。
实验结果:
在这里插入图片描述
消融实验:
在这里插入图片描述
在PETA数据集的测试集上的可视化,分为头部、上半身、中间身体、鞋子、附件和背景。
在这里插入图片描述
GCN和LSTM
使用LSTM来捕捉属性之间的关系或人体部位依赖于顺序数据的顺序。在ARM和CRM中进行了用LSTM代替GCN的实验。下表显示了五种标准下的平均性能比较。GCN在ARM和CRM上都能获得比LSTM更好的性能,这说明了它的有效性。
在这里插入图片描述
在这里插入图片描述

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值