《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
一、研究背景
视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,以提高VQA性能。 通过我们提出的可逆双线性融合模块和参数共享方案,我们的iQAN可以同时完成VQA及其双任务VQG。 通过与我们提出的双正则化器(称为双重训练)共同训练两项任务,我们的模型可以更好地理解图像,问题和答案之间的相互作用。
二、文章贡献
在这项工作中,将VQG和VQA视为双重任务,提出了一种新颖的训练框架,以引入VQG作为提高VQA模型性能的辅助任务。 相应地,得出一个统一的模型,可以完成不同形式的VQA和VQG,称为可逆问答网络(iQAN)。 该模型与VQA和VQG任务共同训练,可以部署在测试阶段的任务中。 此外,提出了一种新颖的参数共享方案和二元正则化,以明确地利用两个任务之间的内在联系。 通过对VQA2和CLEVR数据集的评估,我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。 实验结果表明,我们的框架还可以推广到其他一些流行的VQA模型,并不断提高其性能。
三、实验模型

本文介绍了将视觉问题生成(VQG)作为视觉问答(VQA)的辅助任务,提出可逆问答网络(iQAN)模型。iQAN通过共享参数和双正则化器在VQA和VQG中同时训练,提高了对图像、问题和答案的理解。实验显示,iQAN在VQA2和CLEVR数据集上表现优于MUTAN等方法。

659

被折叠的 条评论
为什么被折叠?



