《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

最新推荐文章于 2025-08-20 15:05:43 发布

原创

最新推荐文章于 2025-08-20 15:05:43 发布 · 1.6k 阅读

本文介绍了将视觉问题生成（VQG）作为视觉问答（VQA）的辅助任务，提出可逆问答网络（iQAN）模型。iQAN通过共享参数和双正则化器在VQA和VQG中同时训练，提高了对图像、问题和答案的理解。实验显示，iQAN在VQA2和CLEVR数据集上表现优于MUTAN等方法。

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

一、研究背景

视觉问答（VQA）和视觉问题生成（VQG）是计算机视觉中的两个主题，但它们通常是分开探索的，尽管它们具有内在的互补关系。在本文中，提出了一个端到端的统一模型，即可逆问答网络（iQAN），将问题生成作为问题回答的双重任务来引入，以提高VQA性能。通过我们提出的可逆双线性融合模块和参数共享方案，我们的iQAN可以同时完成VQA及其双任务VQG。通过与我们提出的双正则化器（称为双重训练）共同训练两项任务，我们的模型可以更好地理解图像，问题和答案之间的相互作用。

二、文章贡献

在这项工作中，将VQG和VQA视为双重任务，提出了一种新颖的训练框架，以引入VQG作为提高VQA模型性能的辅助任务。相应地，得出一个统一的模型，可以完成不同形式的VQA和VQG，称为可逆问答网络（iQAN）。该模型与VQA和VQG任务共同训练，可以部署在测试阶段的任务中。此外，提出了一种新颖的参数共享方案和二元正则化，以明确地利用两个任务之间的内在联系。通过对VQA2和CLEVR数据集的评估，我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。实验结果表明，我们的框架还可以推广到其他一些流行的VQA模型，并不断提高其性能。