29、多粒度下的视觉问题生成

最新推荐文章于 2026-05-06 15:05:11 发布

原创最新推荐文章于 2026-05-06 15:05:11 发布 · 30 阅读

0 GEO检测

标签

#视觉问题生成 #多粒度交互 #跨模态融合

多媒体建模前沿探析专栏收录该内容

76 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多粒度下的视觉问题生成

1. 相关工作

视觉问题生成（VQG）与图像描述有着天然的联系，因为问题可以被视为一种特殊类型的描述。早期的一些研究通过将图像描述修改为问题来进行VQG，还有一些则直接将图像描述架构应用于VQG数据集。在这些情况下，问题是直接从给定图像中无约束地生成的，即进行无条件VQG。然而，这些模型生成的问题往往是通用且缺乏实用性的。

与专注于全局图像理解的图像描述不同，人类倾向于基于特定的局部区域提出问题。因此，最近的研究大多集中在条件VQG，特别是基于答案的VQG。在这种情况下，VQG模型应选择性地、动态地关注不同的图像区域，使生成的问题与先验约束紧密相关，这与图像描述有很大不同。

在问题生成过程中，采用了对象级交互来动态关注与答案相关的区域。对于隐式区域选择，有研究设计了动态多模态注意力，还有研究采用了强化学习技术。而基于对象检测的显式区域选择通常能带来更好的结果，这些模型通过比较目标答案和显著对象语义标签之间的语义距离来进行区域选择，并在问题生成过程中采用图卷积网络（GCN）。不过，仅使用单一的语义信息可能会导致潜在的偏差，因此在对比学习场景下，同时使用语义和视觉特征进行与答案相关的对象级交互。