本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文。

发表地点:ACL 2022;
论文下载链接:Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network - ACL Anthology
代码链接:https://github.com/HITSZ-HLT/CMGCN;
摘要:
随着在线发布包含多模态信息的博客的流行,很多研究同时使用文本和视觉的信息来做多模态嘲讽检测(sarcasm detection)。本文探究了一种新颖的思路,通过为每一个实例(instance)构建跨模态图(corss-modal graph)来提取文本和视觉模态之间的关系。
具体而言,作者首先检测图像(image)的目标(objects),同时获得目标的描述(descriptions),以便学习重要的视觉信息。
然后目标的描述被用作一个桥梁连接文本和图像两个模态,决定objects和文本单词之间关系的重要程度,也就是为每一个实例构建一个跨模态图。
进一步,作者构建了一个跨模态的图卷积网络来学习不同模态之间的不一致关系,用于多模态嘲讽检测。
大量的实验和深入的分析体现了本文模型在多模态嘲讽检测上达到了SOTA性能。
本文动机及现有方法的问题
- 嘲讽是一种特定的情感,做嘲讽检测有助于提高情感分析的能力以及挖掘特定的观点意见。
- 现有嘲讽检测方法大多只考虑了图像的整体特征,而如图1(a)所示,图像中关键的object才是检测嘲讽的重点。
- 嘲讽相关的内容可能分散在图像中,需要结合多个objects才能看出来,如图1(b)所示。

本文主要贡献
- 本文是第一个在多模态嘲讽检测任务中,基于额外的目标检测任务,探索构建graph来建模关键文本和图像信息之间的不一致语义关系的方法;
- 本文利用图像objects的属性-目标对(attribute-object pairs)作为桥梁,构建一个跨模态的graph来将不同模态连接起来,并且给graph中的边赋予不同的重要程度;
- 在一个多模态嘲讽检测的公开数据集上的一系列实验表明,本文的方法达到了SOTA性能。
本文模型及方法

如图2所示,本文模型CMGCN包含四个主要部分:
- 文本模态表征(Text-modality representation);
- 图像模态表征(Image-modality representation);
- 跨模态图(Cross-modal graph);

本文提出了一种新的多模态嘲讽检测方法,通过构建跨模态图来捕获文本和图像之间的关系。使用目标检测提取图像对象,结合文本信息,通过图卷积网络学习模态间的不一致关系,提高了嘲讽检测的性能。实验表明,这种方法在多模态嘲讽检测上达到SOTA水平。

1万+

被折叠的 条评论
为什么被折叠?



