多粒度下的视觉问题生成
1. 相关工作
视觉问题生成(VQG)与图像描述有着天然的联系,因为问题可以被视为一种特殊类型的描述。早期的一些研究通过将图像描述修改为问题来进行VQG,还有一些则直接将图像描述架构应用于VQG数据集。在这些情况下,问题是直接从给定图像中无约束地生成的,即进行无条件VQG。然而,这些模型生成的问题往往是通用且缺乏实用性的。
与专注于全局图像理解的图像描述不同,人类倾向于基于特定的局部区域提出问题。因此,最近的研究大多集中在条件VQG,特别是基于答案的VQG。在这种情况下,VQG模型应选择性地、动态地关注不同的图像区域,使生成的问题与先验约束紧密相关,这与图像描述有很大不同。
在问题生成过程中,采用了对象级交互来动态关注与答案相关的区域。对于隐式区域选择,有研究设计了动态多模态注意力,还有研究采用了强化学习技术。而基于对象检测的显式区域选择通常能带来更好的结果,这些模型通过比较目标答案和显著对象语义标签之间的语义距离来进行区域选择,并在问题生成过程中采用图卷积网络(GCN)。不过,仅使用单一的语义信息可能会导致潜在的偏差,因此在对比学习场景下,同时使用语义和视觉特征进行与答案相关的对象级交互。
2. 模型
模型框架基于对象检测器,分别获取显著区域的视觉和语义表示。对于对象级交互,跨模态融合单元在对比场景的指导下进行与答案相关的区域选择;对于关系级交互,使用关系提取器发现的多种类型的关系边将区域和答案连接成图,并利用GCN层在问题解码前捕获高级关系信息。
2.1 特征提取
在进行跨模态交互之前,首先进行特征提取:
- 答案表示
超级会员免费看
订阅专栏 解锁全文

1625

被折叠的 条评论
为什么被折叠?



