摘要
如何快速又准确的将文本描述对应到它所指代的视觉实例上。
提出了两个网络:
(1) 级联组合注意力(CGA) (2)实例级注意力损失函数(ILA)
CGA通过一步步的在整张图片上的推理,有效的感知不同实例之间的区别,从而识别所指物。
ILA进一步嵌入到每一次的CGA过程中,直接的监督注意力模块,提高了准确率。
CGA使用语言导向的注意力(CD)构造三个张量捕捉语言和像素点之间的关系。
为了充分感知子空间中的详细特征,我们将Collection-Difusion 引申为分组的转换器。
通过级联的CD注意力,CGA可以逐渐的感知到实例语义,提高目标区域的响应。
并且ILA损失将会应用到每一步骤中,通过这个损失函数,标签信号通过注意力机制实现语言和图像实例的对应过程,帮助模型更加有效的捕获新的知识。
模型


特征融合
取ResNet网络中的conv3,conv4,conv5作为视觉特征模块,Fv1,Fv2,Fv3,语言特征![]()
将语言特征与 Fv1做融合得到Fm1:
是Fm1 中的特征向量,
是Fv1的特征向量

之后利用Fm1,获得Fm2,Fm3

Fm3将会运用到级联分组注意力中
级联分组注意力
分组过程

组与组之间的CD过程采用的是一样的权重
将融合特征在通道维进行拆分,分为k个组
![]()
![]()
将文本特征与
统一维度,得到
再将 进行拆分为k个部分,分别与
做运算

最后将经过CD注意力的融合特征分组在通道维进行连接
CD 注意力过程--主过程

原有的多模态注意力机制使用获得到的注意力特征作为添加注意力的矩阵的特征表示,或者使用他们去调整语句的特征权重,这不能建模图像实例和语句之间的关系。CGA通过集合-扩撒过程有选择性的将注意力特征融合到图像区域中。
首先,使用多模态矩阵构造Key,Value
![]()

使用文本特征向量构造Query
![]()
都是权重矩阵
和
分别用于计算集合和扩散过程中的key矩阵
分别与Q以点积注意力的方式,得到注意力图,
然后以softmax和sigmoid对注意力进行集合和扩散,得到

是每一个像素点的权重
使用softmax函数去标准化最与语句关联的信息,使用sigmoid函数感知每一个区域的响应。
![]()
![]()
是汇聚特征,代表的是”最与语句关联信息“的每一个通道的信息

是融合矩阵
最终将融合举证与原来的多模态矩阵进行加和,
得到最终添加了注意力的融合矩阵

级联结构
上一个CGA过程的融合矩阵的输出,作为新的CGA过程的特征输入
使用相同的文本语义特征作为query
指随着推理的进行,每一层的分组数量会越来越少
减少分组的数量一步步的探索多模态空间
ILA
将每一个CD过程计算出的视作一个响应图,然后将ground-truth进行下采样,使两边维度相同,之后进行交叉熵损失计算

是进行下采样之后的ground-truth的一部分,
是
的一部分
实验
CGAN和其他方法的对比,在精度上获得了提升

该文提出了一种新的视觉实例识别方法,包括级联组合注意力(CGA)网络和实例级注意力损失函数(ILA)。CGA通过逐步推理区分图像中的实例,ILA则增强模型的监督能力,提高识别准确性。模型利用ResNet的特征融合,通过分组的CD注意力处理多模态信息,实现文本和图像实例的精确对应。

1326

被折叠的 条评论
为什么被折叠?



