【弱监督语义分割论文汇总】包含经典方法以及最新方法（论文总价+论文链接+代码链接）

原创已于 2022-11-04 19:23:14 修改 · 1k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#计算机视觉 #人工智能 #深度学习

于 2022-11-04 19:17:38 首次发布

弱监督语义分割专栏收录该内容

1 篇文章

订阅专栏

这篇博客汇总了弱监督语义分割领域的经典论文及最新方法，从2015年到2022年的研究涵盖了从基于CNN的图像级标签利用，到像素级关系挖掘，再到Transformer的运用。文章详细介绍了各种方法的贡献、工作原理，包括种子扩展、约束优化、自监督注意力机制等，展示了弱监督语义分割技术的发展和进步。

WSSS论文汇总

2015

【弱监督开端】From Image-level to Pixel-level Labeling with Convolutional Networks

CVPR 2015
论文：https://readpaper.com/pdf-annotate/note?pdfId=550157881149730816&noteId=737927329049849856
贡献：仅使用 image-level 的标签进行训练
方法：
先让图片经过一个普通CNN（OverFeat），得到一个score map（相当于分割网络最后的预测结果，几个类别就几个channel），然后将每个类别的score进行集合，文章在这里介绍了三种 aggregation layer，分别是 sum、max 和 Log-Sum-Exp（LSE），得到每个类别的权重值，如果某个类别在整幅图像上的响应程度较高，那么这个类别的所有像素点都会得到较高的权重，从而抑制了那些不相关类别的值。
为了平滑输出结果，文章提出了三种平滑策略（也可以认为是引入了三种先验信息）：
SP-sppxl：使用 superpixel 方法获取超像素作为网络的输出，其中每个超像素的类别设置为在该超像素区域内出现次数最多的类别。
SP-bb：使用 BING 算法获取候选框，每个像素的输出值需要乘上包含该像素的所有候选框的分数值。
SP-seg：使用 MCG 算法获取分割结果，每个像素的输出值需要乘上包含该像素的所有候选分割区域的分数值。

2016

【code–01 CAM 弱监督语义分割基础】Learning Deep Features for Discriminative Localization

CVPR2016:
- 论文：https://readpaper.com/pdf-annotate/note?pdfId=4667175978011738113&noteId=739999713424011264
贡献：
- CNN提取的feature含有位置信息，尽管我们在训练的时候并没有标记位置信息；
- 这些位置信息，可以转移到其他的认知任务当中。
方法：
每一层卷积层的输出乘以这一层对应分类的权重，然后对结果加权，就可以得到热成像图，最后就得到了class activation map

【code–02 SEC 弱监督分类三原则】Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation

ECCV2016：
- 论文：https://readpaper.com/pdf-annotate/note?pdfId=4514865673536167937&noteId=737602857029709824
- 代码：https://github.com/kolesman/SEC
贡献：
针对于卷积神经网络不能准确预测seed的范围问题，提出了三种损失函数
Seeding Loss——对目标进行弱定位（weak localization）生成初始mask
Expansion Loss——对弱定位的mask进行合理的扩大
Constrain-to-boundary Loss——对扩大后的mask进行合理的约束，更贴近目标边界

2017

【01 STC 逐步训练】STC: A Simple to Complex Framework for Weakly-Supervised Semantic Segmentation

TPAMI2017
- 论文：https://readpaper.com/pdf-annotate/note?pdfId=4498442311490494465&noteId=737611202444767232
贡献：
层层递进三个DCNN，前一个CNN的结果作为下一个CNN的输入

2018

【01 Multi-Dilated Convolution（MDC）空洞卷积的应用】: Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi-Supervised Semantic Segmentation

CVPR 2018 ：
- 论文：https://arxiv.org/pdf/1805.04574.pdf
贡献：
不同的膨胀率可以有效地放大卷积核的接受域，更重要的是将周围的判别信息转移到非判别目标区域，促进了非判别目标区域在目标定位图中的出现。设计了一个包含不同膨胀率卷积块的泛型分类网络。该算法能够生成密集可靠的目标定位图，有效地实现弱监督和半监督语义分割。
方法：
- 对于多个rate（d = 3, 6, 9）的空洞卷积层通过classification activation maps (CAM)得到 corresponding localization maps
- 虽然使用的rate都比较小，但是还是会有一些不相关的区域被映射上，所以为了平衡这个问题，本文将多个rate得到的corresponding localization maps进行加权平均，得到最终的final corresponding localization maps，就会减少不相关区域。
- loss有两个部分组成，一个是使用final corresponding localization maps生成的分割图（a），一个是使用分割网络FCN得到的最后score map中对应的class score map和背景图的score map进行agrmax得到的分割图（b）运用（a）（b）组成联合的loss来进行弱监督学习，训练FCN。
- 这篇文章采用的半监督学习方式就是将弱监督和少量完整标签的图像的强监督学习进行参数分享来达到弱监督的方式

【code–02 Affinity Net 挖掘像素间的关系（random walk)】Learning Pixel-level Semantic Affinity with Image-level Supervision：

CVPR 2018：
- 论文：https://arxiv.org/pdf/1803.10464.pdf
- 代码：https://github.com/jiwoon-ahn/psa
贡献：
AffinityNet是这篇文章的主要贡献，主要用来修正CAMs的前景和背景的标注准确率的。
方法:
- psa是基于Image-level label弱监督的语义分割算法，这个算法不是end2end网络，其主要分为三个模型：CAMs-net、AffinityNet、segmentation-net。
- CAMs-net: 对存在的分类网络(resnet, vgg, etc.)做了一些修改，目标是获取物体所在的局部区域Class Activation Map(CAM)。
  修改后的网络结构：classification network + global average pooling + fully connected layer。
- AffinityNet：在修正CAMs特征时，AffinityNet首先提出了一个语义相似度(semantic affinity简写affinity)的概念。Affinity用于度量feature map中两个点相似度(用L1距离度量)。faff(x,y)代表AffinityNet网络对应的卷积特征(convolutional feature map)，Wij代表在feature map faff上点(xi,yi)和点(xj,yj)之间的语义相似度(affinity)
  
  用image-level labels去训练AffinityNet的时候，作者用CAMs作为train data 的监督。CAMs虽然不是很准确，但是却可以得到可信赖的semantic affinity，然后以此作为线索(clues)进一步精细化affinity。寻找物体的confident areas和background，然后对于训练样本的这些区域进行采样从而训练affinity net：
  在设计affinity标签W*时，作者定义了一个启发式的算法规则：
  1. 如果(xi, yi)和(xj, yj)属于前景区域或者背景区域中的同一个区域，那么赋值W*为1；
  2. 如果(xi, yi)和(xj, yj)其中一个属于前景区域另一个属于背景区域，那么赋值W*为0；
  3. (xi, yi)和(xj, yj)两点中有任一一点属于neutral area，那么在训练AffinityNet时忽略这两点的学习。
    这里作者又提了一个概念random walk，用于学习图像中的语义边界，并且作者说实验验证random walk可以有效提高segmentation labels的质量。
    在获得修正后的CAMs之后，由于CAMs的尺度比原图小，所以经过双线性插值后应用dCRF(dense Conditional Random Field)算法优化之后就可以用来生成segmentation labels。在为每一个像素点选择标签时，作者在优化后的CAMs和upsampled CAMs上选择较大的类别值作为该像素的标签。然后就可以把这个标签用来训练分割网络了。

【03 DSRG深度种子生长算法】:Weakly-Supervised-Semantic-Segmentation-Network-with-Deep-Seeded-Region-Growing

CVPR 2018：
- 论文：https://readpaper.com/pdf-annotate/note?pdfId=4517154756115456001&noteId=744086398483267584
贡献：
- 由于CAM的鉴别区域是稀疏的，往往不能获取完整的像素级分割标签。作者建议在训练分割网络中扩展鉴别区域以覆盖整个对象。实际上，鉴别区域周围的像素总是属于相同的对象，因为同一对象的语义标签具有空间连续性。
- 从判别区域出发训练语义分割网络，逐步增加种子区域生长的像素级监督。将基于区域相似准则的种子区域生长模块集成到深度分割网络中，利用深度特征进行匹配。
1. 方法：
  使用图像标签能够从感兴趣的对象中找到小而稀疏的鉴别区域，称为“种子线索”，具有相似特征（例如颜色，纹理或深度特征）的种子线索的相邻像素可能具有与种子线索相同的标签。利用经典的种子区域增长（种子区域扩展（SRG）是一种无监督的分割方法，用于检查初始种子点的相邻像素，并根据区域相似性标准确定是否应将相邻像素添加到该区域，将此方法集成到深度网络中）方法对此过程进行建模，以生成准确完整的像素级标签。

2019

【01 CVPR2019 IRnet用于弱监督实例分割】: Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

CVPR 2019 :
- 论文：https://arxiv.org/pdf/1904.05044.pdf
- 代码：https://github.com/jiwoon-ahn/irn
贡献：论文巧妙地利用了置信区域内像素点对间关系的建立（语义亲密度、同一类别指向同一中心的假设），实现了基于弱监督的语义分割。它较为完整了反应了弱监督语义分割中一类典型思路seed、expand和contrain的思路
方法：
该方法的基本思路是：首先训练分类网络（论文中为ResNet50），得到类激活图（CAM图）。然而CAM图本身既不能区分不同的实例，也不能发现具有精确边界的完整实例区域。因此论文设计了一个具有两个分支的IRNet，根据CAM图的置信区域，学习实例的中心偏移（displacement）和类边界图（class boundary map），并结合中心偏移和类边界图，根据Random walk算法，获取相对完成的实例区域。

2020

【01 SEAM】Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

CVPR 2020 (oral)：
- 论文： https://readpaper.com/pdf-annotate/note?pdfId=542669698319949824&noteId=745535759231205376
- 源码：https://github.com/YudeWang/SEAM
贡献：
提出了一个叫做self-supervised equivariant attention mechanism (SEAM)的方法去发现额外的监督信息以缩小CAM用在全监督和弱监督之间的差别。
方法：
一是对图像不同变换后生成的CAM图进行一致性约束（consistency regularization）为网络学习提供自监督；
二是引入像素相关模块（pixel correlation module, PCM），借助该模块通过每个像素的情景信息（context appearance information）生成亲密度注意力图（affinity attention maps），以此来修正原始的CAM图。

2022 CVPR 最新方法

【code–01 ReCAM】Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation

CVPR2022:
- 论文：https://arxiv.org/pdf/2203.00962.pdf
- 代码：https://github.com/zhaozhengChen/ReCAM
贡献：
softmax+CE 替换 sigmoid+BCE 解决CAM中出现FP，FN问题
方法：
- 多标签的分类任务与单标签分类任务的结合
- 因为BCE loss回答的问题是–是不是的问题（一个类被分类错误并不能惩罚其他类），进而造成了类混淆。
  而CE loss 可以解决这个问题。（是哪个的问题，只有一个真标，class之间存在互斥性）；
  所以作者想用CE loss 替换BCE loss，进而优化weakly supervised中CAM生成的过程。（手动实现BCE,CE,MSE loss）

【code–02 L2G 】L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly Supervised Semantic Segmentation (局部视图cam与全局cam结合)

2022CVPR:
- 论文：https://arxiv.org/pdf/2204.03206.pdf
- 代码：https://github.com/PengtaoJiang/L2G
motivation:
- 传统的CAM生成的伪标签会丢失很多细节信息，所以训练时把原图进行裁剪生成若干个patches（文中提供了随机裁剪和均匀裁剪两种方式），把这些局部视野像全局视野那样去训练，因为局部视野激活后往往含有更加细节的信息，全局和局部融合之后可以得到更加细节的伪标签。本文的目标是训练主干分类网络，使其能生成更好的CAM图，作者提出了两种Loss来实现这个架构。
方法：
很多的弱监督语义分割的思路是分成Seed、Expand和Constrain，参考文章：《Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation》
其实这也是本文的思路，只是文中没有明确的提出，剖析来看：
- 使用传统的CAM，这是就是产生种子Seed的过程。
- 通过多个局部视野的激活去丰富全局视野激活后的细节，Expand过程。
- 文中为了结果中让目标的轮廓更清晰，增加了显著性检测模块，这就是Constrain。
从左往右看，上面是用于全局视野的分类网络，下面是局部视野的分类网络（作者采用了ResNet，并且指出两个分类网络可不同，且使用不同的分类网络时结果有提升）。上下两个分类网络最后都使用CAM进行激活，然后将局部和全局融合后会产生损失，对损失优化后梯度会传播回两个分类主干网络，这会使分类网络最后经过CAM激活后的结果有更多的细节。
- class loss: 对每个局部视野输出的概率向量和标注文件的multi-hot向量求交叉熵，随着损失优化，每个局部视野对于被标注类的概率输出会增大。
- Attention loss: 上面局部模块因为可能出现多类，所以采用sigmoid。在通道方向做softmax，即每一组softmax输入是各特征图同一位置的不同通道，显然同一位置的像素只能属于一个类别，所以用softmax。采用局部视野相比于采用全局视野信息更加丰富，所以在某区域我们希望把局部视野的信息传递给全局视野。所以看损失公式6，让两个分布的距离减小，就是让全局视野学习局部视野的信息。这里运用了Online Learning的思想，局部信息传递给全局这个过程是随着训练同步地源源不断地。
- Shape Transfer Loss:
  - 这个公式其实是对Attention Transfer Loss的扩充，当等于零的话还和之前一样，但若不等于零就要采用另一种损失，来看看是什么。开头提到主流的弱监督语义分割最后会加入Constrain这个步骤，更好的塑造边界，这里也不例外。作者借用的显著图saliency map来完成，的样子可以看下面的图，他提供了很好的边界信息。
  - 首先对之前的局部激活图Ai选定阈值二值化(0-1)处理成Bi，把Bi和Si做一个element-wise的乘积，因为显著图S目标边界之外都是0，这样就把Bi中目标的边界之外给“抹平”了。图中可以看出这么处理后边界明显平滑了。

之后把Bi x Si直接替换到Attention Transfer Loss的Ai即可，直接植入边界信息。因为显著图不是每张图片都会有的，所以只对有显著图的图片（即Si不等于0）做处理。

本文进对分类网络训练，所以整个架构是可以被轻松移植的修改的，作者指出，分类主干网络如果换成更先进的架构比如ViT话可能有更进一步的提升。

【code–03 MCTformer】Multi-class Token Transformer for Weakly Supervised Semantic Segmentation (改进vit 生成更好的cam)

CVPR 2022:
- 论文：https://arxiv.org/pdf/2203.02891.pdf
- 代码：https://github.com/xulianuwa/MCTformer
motivation:
虽然研究表明，transformer attention 中的不同 head 可以注意到图像的不同语义区域，但如何提前将其与正确的语义类别联系起来仍不清楚。也就是说，这些 attention maps 仍然是类别不可知的。
1. one-class-token的设计不可避免地要从其他对象类别和背景中捕获上下文信息。换言之，它自然地学习不同对象类的类特定表示和类表示，因为只考虑一个 class token ，从而导致相当无差别和噪声的对象定位。
2. 该模型使用只有一个类的token来学习与数据集中多个不同对象类的patch-token的交互。因此，模型容量不足以达到目标的区别性定位性能。
(a)在以前的VIT中，只使用一个token(红色方块)来聚合来自补丁令牌(蓝色方块)的信息。学习到的与类令牌对应的补丁注意生成一个类无关的本地化映射。(b)相比之下，MCTformer使用多个类令牌来学习类token和补丁token之间的相互作用。学习到的不同类标记的类到补丁注意可以产生特定于类的对象定位映射。
传统的ViT使用一个class token线性变换后输出多分类器，也就是一个class token负责多个类别的分类，这样就会导致多个类别的特征被搅和到了一起，让我们无法很好的一个类一个类的去激活他们的位置。
而使用C个class token，每一个class token只负责一个类别的激活，分离类别之间的特征。
作者研究了 transformer 模型是否也能通过学习transformer 中的多类标记来有效地捕捉特定类别的 attention ，以实现更具区别性的对象定位。
贡献：
作者提出了一个 Multi-class To-ken Transformer ，称为 MCTformer ，它用 multiple class tokens 去学习 class tokens 以及 patch tokens 之间的交互(interactions) ，提出的 MCTformer 可以很好的从对应于不同 class token 的 class-to-patch attention 生成 class-discriminative object localization maps。作者还建议使用从patch-to-patch transformer attention 中提取的成对的patch级别的成对关联性 (patch-level pairwise affinity) 来进一步refine localization maps.
方法：
- MCTv1:
  - 首先按照ViT的做法，把图片切成NN个patch，每个patch拉成一个向量，embedding之后每个patch向量维度为D，本文把这些patch向量称为patch tokens，共有NN个patch tokens

传统的ViT会在这些patch tokens前加上一个class token，维度也是D，因为最后要像图中那样和patch tokens拼接，最后把他提取出来做分类器。本文创新的加上C个class tokens，C是多分类的类别数，作者管这个操作叫multi-class token -> MCTformer。现在我们的输入就是(C+N+N)*D，共有C+N+N个token，维度为D，D代表了每个token的特征数量。PE代表融入了位置编码信息。之后把我们这些tokens送到ViT的encoder中，连续执行L次
Class-specific attention refinement
蓝色小圆圈代表了patch token之间的关联，是一个NNN*N方阵，称它为affinity map。看蓝色箭头指的图片，对角线附近值最大，因为一个位置和它自己或是周围的相关性肯定是最大的。假设p1位置对应的token和p2位置对应的token关联性很大，那么，如果p1位置很强的激活了某类，那么p2位置也要给予很强的激活。

上面的公式说明，作者通过遍历patch token对来完成这个操作，(i, j)和(k, l)是patch的位置，c是第c类，Amct是上一步得到的激活图。这一步作者管他叫Class-specific attention refinement，是一种对激活图进一步细化的操作。结合上图示例，这个操作是丰富了激活图的细节，激活了更多的区域。
Class-aware training
训练方式如网络右上角，每个class token代表了某一类别，对token池化后直接和标注求损失即可，然后反向传播。因为是多标签任务，并且encoder也有Norm操作，不需要在进行BN什么的，直接池化就好了。
- MCTv2:
  
  观察这个结构，主干还是V1那样，但是把encoder输出中patch token那一部分拿出来再做一次传统的卷积网络，细节如下
1、像传统的卷积网络那样最后产生分类器，和标注文件产生损失，把这个损失和V1中的那个损失求和，一起反向传播。
2、为什么要在过一次卷积网络呢，估计是作者舍不得放弃利用传统的卷积网络生成CAM激活图。看图中的最下方，作者把卷积网络生成的CAM和V1中生成的激活图做element-wise的乘积，融合两者激活区域。
3、作者把利用affinity map细化激活图的步骤，放到了融合过两种激活图之后。

【code–04 AFA】Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers （结合Transformer 与 Affinity)

CVPR 2022：
- 论文：https://arxiv.org/pdf/2203.02664.pdf
- 代码：https://github.com/rulixiang/afa
motivation：
- 基于image-level的WSSS方法通常采用多阶段的框架(multi-stage framework)。不足：这种方法需要训练多个网络，或者多次训练网络，整个训练流程的效率低。
- 为了避免一阶段存在的不足，很多end-to-end方法被提出。不足：大多利用卷积网络，卷积网络存在对全局特征提取以及全局特征间联系获取能力不足的固有缺陷
贡献：
- Transformer的self-attention和图像的语义Affinity存在固有一致性. 将Transformer的multi-head-self-attention用于辅助学习语义affinity
- 提出了端到端的、只利用图像级标签的、基于Transformer的弱监督语义分割框架
- 提出了 Affinity from Attention (AFA) 模块，用于从Transformer的多头自注意力（MHSA）中学得语义亲和度（semantic affinity）的信息，用于 propagate （传播/扩散/生长）伪标签（pseudo label）
- 提出了 Pixel-Adaptive Refinement (PAR) 模块，用于 incorporate （合并/混合）图像的颜色信息（RGB）和空间信息（像素坐标），用于优化伪标签。
方法:

路径一是Transformer输出三个数据：预测的类别 classification prediction，预测的分割结果 segmentation prediction，预测的亲和度矩阵 affinity prediction。其中类别预测结果是直接使用已有的图像级标签来进行监督的。分割结果和亲和度矩阵的监督信息需要通过后面三个部分获得。
- 多头注意力可以看作是有向图，但图像区域之间的亲和度应该是相互对称的。所以这里采用了原注意力矩阵和其自身的转置相加的处理方式来获得对称的注意力矩阵，记为 (S+ST)
- 对称的自注意力矩阵经过图中的 MLP layer （从程序上看图中的 MLP layer 是单层卷积？），将原本的 n 维降到 1 维，得到亲和度矩阵 A∈Rhw×hw 。整个过程用公式表达为（对应原文公式3 ）：
  
  其中 S 是多头注意力，A 是亲和度矩阵。
路径二是生成类激活图（Class Activation Map，CAM），并基于CAM生成初始伪标签。

初始伪标签的生成：预先定义了范围为 0~1 的两个超参数 βl 和 βh ，按如下规则处理CAM：
- 低于 βl 的区域置为 0，表示可信背景区域
- 高于 βh 的区域使用 argmax 获得各像素位置的类别。如：任务有4个类别，则这部分区域的取值范围为 {1,2,3,4}
- 介于两者之间的区域置为 255，表示不确定区域，不予处理
路径三是对初始伪标签进行优化，主要用到 random walker 算法和 PAR 模块，优化后得到最终伪标签，用于监督分割结果的生成。
- 路径三是先用 random walk 算法对伪标签进行扩散传播（propagation），然后利用文章提出的PAR模块对伪标签进一步优化。
- 使用随机游走算法（Random Walk）对初始伪标签进行扩散传播。先对亲和度矩阵 A∈Rhw×hw 做处理：求矩阵的 α 次方，逐行除以行内元素之和（行内归一化）。然后和CAM矩阵 M∈Rh×w×c 进行矩阵相乘得到处理后的CAM矩阵 Maff
  
  其中，A 是亲和度矩阵；M 是CAM矩阵；D 是 A 各行累加，用于对 A 做归一化；T 是行内归一化之后的 A；vec(⋅) 代表 flatten 或者 reshape 操作，将 M∈Rh×w×c 变成 M∈Rhw×c ；Maff 是扩散传播后的伪标签。
- PAR模块对伪标签的优化：这个PAR模块是一个变相的均值滤波的过程。普通的均值滤波是直接取8邻域求均值，PAR模块里面的邻域范围更大，而且巧妙地用膨胀卷积实现了取邻域元素的过程**。PAR的这一实现方式能够利用GPU加速，效率高。
- 如示意图所示，这里构造了一个8通道的卷积核，从第1个通道到第8个通道，依次将第1到第8个位置置1，其余位置置0，用此卷积核对图像做卷积操作，就能达到取8邻域元素的效果。搭配已经封装好的膨胀卷积操作，就能取得范围更大的邻域元素。
路径四是先对初始伪标签进行优化，主要用到 PAR 模块，使用优化后的伪标签生成亲和度矩阵的标签，用于监督亲和度矩阵的生成。
- 路径一预测的亲和度矩阵缺少对应的标签来监督这个过程，路径四的目的就是生成对应的标签。具体来看，这里是取 random walk 之前的初始伪标签，用PAR模块做优化（这里仍将优化后的伪标签记为 Yp ），然后按照一定的规则生成亲和度矩阵的标签。伪标签转亲和度矩阵标签的过程和 IRNet 中的一处做法类似。
- 取值为255的区域代表不确定区域，剩余区域代表确定区域。其中确定区域又分为取值为0的背景区域，和取值为各个类别标签数值的前景区域。对于每个位置，都把它半径 r 以内的区域视为邻域，然后分析它与邻域的关系。假设已知某个位置为 i ，它的一个邻域为 j ，规则描述如下：
  - 如果 i,j 都是确定区域
    - 如果 Ypi 和 Ypj 取值相同，则 Yaffi,j 置为 1，同时位置 i,j 记为positive位置对；
    - 如果 Ypi 和 Ypj 取值不相同，则 Yaffi,j 置为 0，同时位置 i,j 记为negative位置对；
  - 如果 i 或 j 任意一方为不确定区域，则 Yaffi,j 置为 255，表示“忽略”
  - 此外，邻域外的关系均置为 255，且 Yaffi,j 和 Yaffj,i 取值相同。
    按照上述规则就能得到亲和度矩阵的标签 Yaff∈Rhw×hw 。
整个模型包含四项损失：“类别预测”对应的多标签分类损失 Multi-label Soft Margin Loss Lcls，“分割预测”对应的交叉熵损失 Cross-entropy Loss Lseg，本文定义的亲和度损失 Affinity Loss Laff，其他文章用过的正则损失 Dense Energy Loss Lreg。