Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training在视觉语言预训练中

最新推荐文章于 2026-06-25 16:15:00 发布

原创最新推荐文章于 2026-06-25 16:15:00 发布 · 1.2k 阅读

19 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #深度学习

大模型幻觉专栏收录该内容

16 篇文章

订阅专栏

本文系统研究视觉语言预训练（VLP）模型中的物体幻觉问题。发现现代VLP模型仍常产生幻觉，常用优化方法可能加剧问题。研究不同图像编码和VLP目标对幻觉的影响，发现基于色块特征及小分辨率色块可减少幻觉。提出ObjMLM损失，可将物体幻觉减少17.4%。

Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training
----
似是而非：在视觉语言预训练中探测物体幻觉

Abstract

大规模视觉语言预训练（VLP）模型在基于视觉信息生成文本时容易产生不存在的视觉对象的幻觉。本文从三个方面系统地研究了物体幻觉问题。首先，我们检查了最近最先进的 VLP 模型，结果表明它们仍然经常产生幻觉，并且在标准指标（例如 CIDEr）上获得更好分数的模型可能更不忠实。其次，我们研究了 VLP 中不同类型的图像编码如何影响幻觉，包括基于区域、基于网格和基于色块的图像编码。令人惊讶的是，我们发现基于色块的特征表现最好，并且较小的色块分辨率可以显着减少物体幻觉。第三，我们解耦了各种 VLP 目标，并证明令牌级图像文本对齐和受控生成对于减少幻觉至关重要。基于此，我们提出了一种简单而有效的 VLP 损失，名为 ObjMLM，以进一步减轻物体幻觉。结果表明，在两个基准测试（域内评估的 COCO Caption 和域外评估的 NoCaps）上进行测试时，它可将物体幻觉减少高达 17.4%。

1 Introduction
----
1 简介

由于预训练大型语言模型（LLM）和视觉语言预训练（VLP）方法的进步，模型能够在视觉条件文本生成（例如图像字幕）中取得令人惊讶的良好性能。然而，人们发现法学硕士在给定源输入的情况下会生成不忠实或无意义的文本（Ji 等人，2022），这称为幻觉。幻觉问题也被 VLP 模型继承了（Alayrac et al., 2022），因为它们仍然是可以理解视觉信号的语言模型。如果我们只看到文本，VLP 模型通常会生成流畅且似乎合适的句子，但如果考虑到视觉输入，则会产生错误。 VLP 中的一种主要幻觉类型被称为物体幻觉（Rohrbach et al., 2018），其中模型从输入图像中生成包含不存在或不准确物体的文本。 VLP 模型中的物体幻觉本质上限制了其性能并引发了工业应用的安全问题。例如，在生物医学图像字幕中（Pavlopoulos et al., 2019），物体幻觉会降低诊断的准确性，并可能给患者带来严重的后果。尽管物体幻觉存在局限性和风险，但当代 VLP 作品尚未研究这个问题。

为了缩小上述研究差距，在本文中，我们系统地研究了关于物体幻觉的四个基本研究问题：1）现代VLP模型产生幻觉的程度有多少？ 2）VLP中不同形式的图像编码如何影响物体幻觉？ 3）常见的VLP目标对物体幻觉有什么影响？ 4）如何减轻VLP模型中的物体幻觉？

对于我们的第一个问题，我们研究了图像字幕任务中最新的 VLP 模型。为了评估物体幻觉，我们采用并扩展了 Rohrbach 等人提出的 CHAIR（具有图像相关性的标题幻觉评估）指标。（2018）。结果表明，这些模型仍然经常产生幻觉，生成的句子中约有 10% 包含至少一个幻觉物体。当给定域外图像生成句子时，这个问题变得更加严重。此外，我们发现广泛使用的优化方法 SCST（Rennie 等人，2017）可能会导致更多的幻觉，即使它改进了 CIDEr（Vedantam 等人，2015）等标准指标。而罗尔巴赫等人。（2018）观察到类似的发现，我们用更多样化的模型池进行评估，表明大规模 VLP 无法解决这个问题。

对于我们的第二个问题，为了研究 VLP 中不同类型的图像编码如何影响幻觉，我们消除了三种常用的图像编码，包括基于区域、基于网格和基于色块（Kim et al., 2021）。令人惊讶的是，我们发现基于色块的特征表现最好，并且较小的色块分辨率可以显着减少物体幻觉。

与直觉相反的是，虽然 ITC 和 ITM 有助于区分不同的图像和文本，但结果表明它们对减轻物体幻觉没有多大帮助。生成式 ICLM 损失是物体幻觉的主要影响因素，不同的预训练数据集会导致不同的模型行为。更详细的分析在 5.3 节中描述。

最后，我们提出了一种简单而有效的新视觉语言预训练损失，即对象掩码语言建模（ObjMLM），通过增强生成过程中文本标记和视觉对象之间的对齐和限制来进一步减轻对象幻觉。代码和评估设置已发布：https://github.com/wenliangdai/VLP-Object-Hallucination。

总的来说，我们的贡献有三方面：

这是第一篇系统地研究物体幻觉问题的最先进的 VLP 模型的论文，证明这个问题还远未得到解决，而且之前改进标准指标的方法可能会导致更严重的幻觉。
我们深入研究了不同 VLP 损失和图像编码方法对物体幻觉的影响。我们的研究结果对于未来构建更负责任的 VLP 系统的工作很有价值。
我们提出了一个新的预训练目标 ObjMLM 来减轻物体幻觉。实验结果表明，在不引入额外训练数据的情况下，它减少了 17.4% 的物体幻觉

2 Related Work
----
2 相关工作

2.1 Hallucination in Deep Learning
----
2.1 深度学习中的幻觉

一般来说，术语幻觉表示出现不符合条件输入的不良输出（Maynez et al., 2020），即使它可能看起来流畅或合理。在多模态领域，幻觉现象是指对不存在或不正确的物体的预测（例如，在物体检测或图像字幕中），称为物体幻觉（Rohrbach et al., 2018; Biten et al., 2022）。尽管大型预训练模型取得了成功，但它们仍然存在幻觉问题，这会降低性能并在很大程度上阻碍实际应用（Ji et al., 2022）。

近年来，人们提出了许多减轻幻觉的工作。聂等人。 (2019) 应用数据细化和自训练来提高数据到文本生成任务中输入和配对文本之间的等效性。张等人。（2021b）和张等人。 (2020) 提出了场景图学习方法来支持视觉字幕的过程，以减少幻觉。马等人。 (2020) 从局部图像区域重建生成的句子。 Shaw 和 Wang (2021) 提出了不确定性感知波束搜索，作为原始波束搜索的附加技术，适用于图像字幕和数据到文本生成。为了减少对话系统中的幻觉，Shuster 等人。 (2021) 介绍了知识增强，Dziri 等人。 (2021) 提出了一种后处理方法来细化生成的输出。苏等人。 (2022) 使用机器阅读理解模块预测的答案相关信息来增强模型，以减少幻觉

2.2 Vision-Language Pre-training
----
2.2 视觉语言预训练

近年来，视觉语言预训练（VLP）的研究取得了巨大进展。由于对大规模数据的需求，大多数 VLP 方法使用自监督预训练目标来利用从网络爬取的图像文本对。一开始，BERT式的 VLP 模型被训练来执行多模式理解任务，使用图像文本匹配和掩码语言建模等目标。后来，引入编码器-解码器架构来额外处理具有因果语言建模损失的多模态生成任务。另一项研究使用双流架构，其中单独的图像和文本编码器通过图像对齐在一起-文本对比损失。它们大大提高了各种多模式下游任务的性能。

阿莱拉克等人。 (2022) 表明，致命的物体幻觉可以自然发生，也可以由现代 VLP 模型中的对抗性提示引起。然而，在之前的工作中，尚未研究不同的 VLP 策略如何影响给定图像生成文本的忠实度。此外，使用不同类型图像编码的效果也不清楚，包括基于区域的（Li et al., 2020c；Zhang et al., 2021a；Hu et al., 2022）、基于网格的（Wang et al., 2022b））和基于色块的（Kim 等人，2021；Li 等人，2021a）。

3 Evaluation Setup
----
3 评估设置

在本节中，我们首先介绍第 3.1 节中用于自动评估的 CHAIR 评估指标。然后，在第 3.2 节中，我们描述了用于测试的两个数据集，并解释了如何在这种设置下计算 CHAIR 分数。

3.1 Evaluation Metric
----
3.1 评估指标

为了自动测量物体幻觉，我们采用 Rohrbach 等人提出的 CHAIR（带有图像相关性的标题幻觉评估）指标。（2018）。 CHAIR 根据真实情况计算生成的目标词不在图像中（即幻觉）的比例。 CHAIR 有两种变体：CHAIRi（实例级）和 CHAIRs（句子级），其表述如下：

根据公式，CHAIRi 表示所有数据样本中幻觉物体占所有真实物体的比例。可以看作是生成的物体是幻觉的概率。另一方面，CHAIR s衡量生成的句子中包含至少一个幻觉物体的比例。因此，为了计算 CHAIRi 和 CHAIRs，我们需要一个预定义的完全对象类别列表来识别文本中的对象。我们在第 3.2 节中说明了数据集特定的计算细节。

3.2 评估数据集

为了使用 CHAIR 评估模型在物体幻觉方面的性能，我们采用了两个广泛使用的基准：Microsoft COCO Caption (Lin et al., 2014) 和 NoCaps (Agrawal et al., 2019)。对于所有模型，COCO Caption 训练集用于图像字幕任务的微调，COCO Caption 测试集和 NoCaps 有效集分别用于域内和域外评估。下面，我们介绍每个数据集的统计数据以及如何计算它们的 CHAIR。

3.2.1 COCO 字幕

COCO Caption (Lin et al., 2014) 是一个大规模且广泛使用的数据集，用于图像字幕任务的训练和评估。我们使用 Karpathy 分割（Karpathy 和 Fei-Fei，2017），其中 82K、5K 和 5K 图像分别位于训练集、验证集和测试集中。每张图像都标有至少五个真实标题。为了计算该数据集上的 CHAIR 分数，我们遵循 Rohrbach 等人提出的设置。（2018）。在实践中，我们首先对每个句子进行标记，然后对每个单词进行单数化。然后，我们使用 Lu 等人的同义词列表。 (2018) 将细粒度对象映射到预定义的 80 个粗粒度 MSCOCO 对象类别（例如，将“小狗”、“吉娃娃”、“贵宾犬”映射到“狗”类别）。进行此映射的目的是确保我们不会错误地检测到幻觉对象。例如，当真实标题只有“小狗”对象时，如果我们不执行映射，则 CHAIR 指标将不合需要地将模型生成的“狗”对象视为幻觉对象。

3.2.2 NoCaps

NoCaps（Agrawal 等人，2019）数据集旨在评估在 COCO Caption 训练集上训练的模型，以检查它们泛化到更广泛的视觉概念（即看不见的对象类别）的能力。验证集中有 4,500 张图像，测试集中有 10,600 张图像。图像取自 Open Images V4（Kuznetsova 等人，2020）数据集，其中包含 600 个对象类。由于测试集的真实字幕不可用，我们使用有效的 NoCaps 集。

为了计算 NoCaps 上的 CHAIR 分数，我们设置了与 COCO Caption 中使用的类似设置。具体来说，我们根据层次对象关系将 NoCaps 中定义的细粒度类映射到粗粒度类别，以提高 CHAIR 指标的有效性。我们仅将两种类型的对象类别添加到最终对象列表中：1）具有子类别的超类别，2）既没有超类别也没有子类别的对象类别。最终，我们从 600 个类中构建了 139 个粗粒度对象类别的列表。

4 Object Hallucination in VLP Models
----
4 VLP 模型中的物体幻觉

受益于各种 VLP 方法的巨大进步，通过遵循预训练然后微调的模式，图像字幕的性能得到了很大的提高。一般来说，性能是通过 CIDEr (Vedantam et al., 2015)、SPICE (Anderson et al., 2016)、METEOR (Banerjee and Lavie, 2005) 和 BLEU (Papineni et al., 2002) 等指标来衡量的，其中考虑模型生成的描述和真实描述之间的语义和句法相似性或基于 n 元语法的流畅性。然而，VLP 模型生成的字幕的真实性却被忽视了。

在本节中，我们对最新的 VLP 模型进行了全面分析，以研究它们在生成以视觉信息为条件的文本时产生的幻觉程度。结果如表 1 所示。模型在 COCO Caption 训练集上进行微调，并在 COCO Caption 测试集和 NoCaps 有效集上进行评估。

总的来说，我们观察到两个值得注意的见解。首先，与 Rohrbach 等人的研究结果相似。 (2018)，对于所有 CHAIR 分数，它们与标准评估指标不成比例。尽管标准指标（例如 CIDEr 中的余弦相似度）可能会惩罚错误的对象预测，但它们并不直接反映忠实度。只要字幕包含足够准确的对象来满足覆盖范围，即使存在幻觉对象，字幕仍然可以从标准指标中获得良好的分数。例如，VinVLLarge 比 VinVLBase 获得了更高的 CIDEr 和 BLEU-4 分数，但其 CHAIR 分数也更高。因此，除了其他指标之外，有一个像 CHAIR 这样的补充指标来反映忠诚度也很重要。

其次，CIDEr 优化方法的自我批判序列训练（SCST）（Rennie et al., 2017）损害了生成字幕的忠实度。 SCST 是一种强化学习算法，已被广泛采用作为图像字幕标准交叉熵优化之后的第二阶段微调（Anderson et al., 2018；Zhou et al., 2020；Li et al., 2020c；Zhang et al. ., 2021a; Hu 等人, 2022; Wang 等人, 2022a)。它通过在训练期间采样字幕来根据 CIDEr 分数计算奖励，而不需要另一个基线。尽管 SCST 可以显着提高之前标准指标的性能，但它会鼓励模型在标题中生成更多幻觉对象。例如，应用 SCST 将 VinVLBase 的 CIDEr 分数提高了 11.1，将 BLEU-4 分数提高了 2.7，但在 COCO Caption 数据集上也提高了 0.9 CHAIRs 分数。

而雷尼等人。（2017）也通过测试小规模模型观察到了这种现象，我们表明 SCST 对 VLP 模型的伤害较小。当模型预训练得很好时，SCST的副作用就会减轻（例如OFA大型模型）。此外，我们证明这个问题在域外图像上变得更加严重。对于 VinVLBase 模型，使用 SCST 后，生成的包含至少一个幻觉物体的字幕增加了 10.9%。我们推测，基于 CIDEr 的优化会鼓励模型生成更多与视觉语言表示空间中的真实字幕具有更高余弦相似度的单词或短语，这可能看似合理，但并不忠实。

我们在图 1 中展示了一个案例研究。经过 SCST 微调后，模型将冒更大的风险来生成更详细但不正确的信息（例如，在图 1 的第二个示例中，带有幻觉的句子生成详细信息“镜子”，在图像中找不到）。这将进一步放大域外图像上的物体幻觉问题，因为模型对不熟悉的视觉概念的置信度可能较低。

5 Probing Image Encoding Methods and VLP Objectives
----
5 探索图像编码方法和 VLP 目标

在本节中，我们系统地研究了 VLP 中的两个决定因素，它们直观地影响物体幻觉问题的严重程度。首先，我们研究不同类型的图像编码如何影响物体幻觉，因为它们是解释视觉信息的模型的关键组成部分。具体来说，我们消除了三种编码方法，包括基于区域、基于网格和基于色块。其次，我们分析不同的 VLP 目标如何影响物体幻觉。我们消除了三种常用的：图像文本对比（ITC）、图像文本匹配（ITM）和图像条件语言建模（ICLM）。附录 A 中描述了实施细节。

5.1 模型架构

clip。 CLIP (Radford et al., 2021) 是一种双流 VLP 模型，由图像编码器和文本编码器组成。它使用跨模态对比损失对 4 亿个图像文本对数据进行了预训练。具体来说，CLIP 探索了两种不同尺寸的图像编码器架构2，包括 ResNet（He 等人，2016）和 Vision Transformer（ViT）（Dosovitskiy 等人，2021）。生成的图像和文本编码器在同一多模态特征空间中对齐。

bert。 BERT（Devlin 等人，2019）是一个 Transformer（Vaswani 等人，2017）模型，通过掩码语言模型（MLM）和句子排列损失在大型语料库上进行预训练。经过微调后，它在各种下游任务上表现出了出色的性能。此外，当自注意力层被限制在从左到右的方向上时，BERT 还可以处理生成任务，以自回归方式生成文本。在本文中，我们将此变体称为 BertLM。我们设计了一个灵活的架构，可以插入各种视觉编码器并适合现代 VLP 目标，而不会引入额外的影响因素。如图 4 所示，该模型由两部分组成：一个用于对图像进行编码的视觉编码器和一个用于根据图像表示生成句子的文本解码器。我们使用两个单独的模块而不是统一的单流模型，因为在保持文本解码器相同的同时可以方便地更改视觉编码器。具体来说，对于基于区域的图像特征，我们探索了具有两种不同主干的 Faster R-CNN 对象检测器（Ren 等人，2015）：BUTD 中使用的 ResNet-101（Anderson 等人，2018）和 ResNeXt152（ Xie 等人，2017），Zhang 等人使用。（2021a）。它们都在 COCO (Lin et al., 2014) 和 Visual Genome (Krishna et al., 2016) 数据集上进行了预训练，用于对象检测。对于基于网格和基于块的图像特征，我们分别使用 CLIP ResNet 变体和 CLIP ViT 变体。使用 CLIP 的原因是它的所有变体都是在相同的数据上进行预训练的，并且有多种不同的模型大小。对于所有视觉编码器，我们使用相同的 BertLM 作为文本解码器。

5.2 不同图像特征的影响

正确识别视觉物体对于避免物体幻觉至关重要。在表 2 中，我们比较了不同视觉编码器与相同文本解码器在 COCO（域内）和 NoCaps（域外）数据集上的性能。

总体而言，基于色块的视觉编码器在避免物体幻觉方面获得了最佳性能。具有网格特征的模型在获得与其他模型相当的 CIDEr 分数时更容易产生幻觉。例如，在 COCO 上，RN50×16 的 CIDEr 分数与 ViT-B/16 相似，但 CHAIR 更高，这在 RN50×64 和 ResNeXt-152 之间也观察到。我们推测，卷积神经网络（CNN）的归纳偏差（Cohen and Shashua，2017），例如局部性和平移不变性，削弱了单个物体不同特征的联系，从而导致更多的幻觉。相反，区域或块级特征是通过直接将图像划分为不同部分并通过位置嵌入进一步关联它们来获得的。此外，我们发现较小的色块分辨率有助于减少物体幻觉，而无需扩大模型尺寸。

对于基于区域的视觉编码器，尽管它们在模型尺寸相对较小的 COCO 上取得了一定的结果，但它们在域外图像上的物体幻觉性能却急剧下降。一个重要原因是，此类编码器的输出仅包含检测到的视觉对象的表示，而不是整个图像，这可能会放大检测错误，因为上下文要少得多。此外，由于目标检测器是与整个模型分开进行预训练的，并且其参数在微调过程中是固定的，因此这种差距也可能会加剧对未见过的图像的物体幻觉。

5.3 Effects of Different VLP Objectives
----
5.3 不同VLP目标的影响

基于性能最佳的 ViT-L/14 基线，我们探索了三种常用的视觉语言预训练目标及其可能影响物体幻觉的变体。

5.3.1 预训练数据集

我们探索了两个带有图像文本对的预训练数据集：1）来自 Visual Genome（Krishna et al., 2016）数据集的 VG Caption，其中包含 10K 图像，每个图像都有多个相应的描述； 2）更大规模的数据集 CC3M（Sharma 等人，2018），包含三百万个图像文本对。

5.3.2 图文对比（ITC）损失

跨模态对比损失在表示学习 (Tian et al., 2020; Sigurdsson et al., 2020) 和 VLP (Radford et al., 2021; Li et al., 2021a, 2022) 中被证明相当有效。它将视觉和文本表示对齐到相同的多模态特征空间中，如果图像和文本配对，则缩短它们之间的距离，如果不配对，则放大它们。

与直觉相反，如表 3 (b) 所示，ITC 对生成字幕的真实性影响可以忽略不计。我们推测它只会增强模型对全局级表示的理解，而不是图像和文本之间的标记级对齐。为了验证，我们使用 Yao 等人提出的更细粒度的token级后期交互（ITCLate）进一步测试 ITC。（2022）。如表 3 (c) 所示，ITCLate 比普通 ITC 更有效，并且稍微减少了物体幻觉。我们认为这得益于 ITCLate 启用的字-色块对齐功能。

5.3.3 图文匹配（ITM）损失

ITM 是 VLP 中广泛使用的损失。它是一个二元分类任务，旨在让模型学习图像和句子是否配对。在此基础上，引入了带有硬负例的ITM（ITMHard）来增加任务的难度，这被证明对表示学习非常有效（Kalantidis et al., 2020; Robinson et al., 2021; Li et al., 2021）。，2021b)。我们遵循 Li 等人提出的 ITM 损失。 (2022)，其中批量负例是均匀采样的（正态负例）或从 ITC 计算的图像文本对的相似度分布（硬负例）中采样。

结果示于表3(d)(e)中。 ITM和ITMHard都与物体幻觉问题相关性不高。它们仅稍微减少域外图像上生成的文本中的幻觉。尽管 ITMHard 可以被视为以全局和区分的方式对物体幻觉问题（看似合理但不正确）的类比，但它对于减少下游生成任务的幻觉的作用可以忽略不计。

5.3.4 图像条件语言建模Image-Conditioned Language Modeling

VLP 研究中提出了各种图像条件语言建模损失，其形式包括掩码语言建模（MLM）（Sun et al., 2019; Tan and Bansal, 2019; Su et al., 2020）、文本填充（ Dai 等人，2022；Wang 等人，2022a）、前缀 LM（Wang 等人，2022b）和因果 LM（Hu 等人，2022）。这是激活 VLP 模型跨模态文本生成能力的最关键的预训练损失之一。

我们首先检查因果 LM 损失，它与图像字幕损失完全相同，但在预训练中使用的规模要大得多。令人惊讶的是，如表 3 (f) 所示，虽然 VG Caption 的预训练并没有改善 CIDEr 等之前的标准指标，但与 (a) 相比，它有助于大幅减少物体幻觉。

这种性能提升背后有两个原因。首先，如图 2 所示，对于每个图像，VG 比 COCO 包含更多的标题。与 COCO 中的全局描述不同，VG 中的每个标题要短得多，并且仅描述图像的一个特定方面。因此，在VG上预训练，然后在COCO上微调，是一个由精到粗的过程。它使模型能够首先准确地描述图像的不同部分，并在更高的视角将这些线索连接在一起。其次，由于 VG 字幕长度较短的性质，模型变得稍微谨慎一些。平均而言，在预训练中添加 VG 数据后，COCO 和 NoCaps 上每个标题生成的对象分别减少了 0.08 和 0.24。这一观察结果与 Biten 等人提出的句子简化方法一致。（2022），它简化了句子以增强数据并进一步减轻物体幻觉。图 3 说明了 VG 对生成样本的影响。该模型更加忠实，但在不自信时更可能缺少一些细节。

对于 CC3M，我们观察到所有指标都有飞跃。它提高了模型的一般图像翻译能力，可以看作是大规模数据增强。这表明在预训练过程中看到足够多的数据和各种物体的共现有助于在一定程度上减轻物体幻觉。然而，数据增强可能不是彻底解决物体幻觉的关键。正如第 4 节中所讨论的，即使模型是在大规模数据上进行预训练的，物体幻觉仍然会频繁发生。因此，我们相信增强视觉条件文本生成的可控性将是一个有前途的未来方向。更多案例研究请参见附录 B。

6 Object Masked Language Modeling
----
6 对象屏蔽语言建模

基于第 5 节的发现，我们提出了一个简单而有效的预训练目标，通过改进对象级图像文本对齐来减轻对象幻觉。它被命名为对象屏蔽语言建模（ObjMLM）。如图 4 所示，ObjMLM 可以被视为 MLM 损失的变体，通过屏蔽图像中出现的文本中的所有对象。对于每个句子，我们通过执行精确匹配来屏蔽 COCO 和 NoCaps 的对象类别列表中定义的对象单词和短语。与全词屏蔽（Cui et al., 2021）类似，我们进行全对象屏蔽，以便只有一个 [MASK] 标记来替换每个对象。

图 4：模型架构和我们提出的 ObjMLM 训练的概述。我们使用第 5 节中描述的相同架构来展示 ObjMLM 的有效性。这里，图像编码器可以是第 5.2 节中描述的基于区域、基于网格或基于块的变体之一。对于 ObjMLM，我们使用 ViT-L/14。

比较表 3 行 (h) 和 (i) 中显示的结果，通过将 ObjMLM 插入现有的 VLP 设置，CHAIRs 分数降低了 17.4%。在不引入更多预训练数据的情况下，这是一个不平凡的改进。为了进一步验证 ObjMLM 的有效性，我们将其替换为掩蔽率为 15% 的标准 MLM 损失。然而，它只减少了 1.7% 的 CHAIR，影响并不大。我们推测 ObjMLM 添加了一个约束，间接控制模型仅生成在输入图像中可见的对象。此外，ObjMLM 增强了模型在描述物体之间的空间关系时的识别能力，这是经常引起幻觉的常见场景。

7 结论

本文系统地研究了VLP模型中的对象幻觉现象，这是当代VLP工作中一个严重但被忽视的问题。我们发现最近的大型 VLP 模型仍然频繁出现幻觉。此外，广泛使用的 SCST 方法损害了图像字幕中生成句子的忠实度，即使它改进了以前的标准指标。此外，我们发现图像编码很重要，并且具有较小分辨率的基于补丁的输入有助于减轻物体幻觉。最后，我们消除了常用的 VLP 损失，并表明 token 级图像文本对齐和生成的可控性至关重要。我们进一步提出了一种名为 ObjMLM 的新损失，它可以将现有 VLP 设置的物体幻觉减少 17.4%。我们相信我们的研究结果有利于未来建立更负责任的 VLP 模型。