＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

原创

已于 2022-04-25 21:28:41 修改 · 2.1k 阅读

标签

#计算机视觉 #深度学习 #人工智能 #神经网络

于 2022-04-25 21:25:32 首次发布

该研究首次探讨了多模态模型中的后门攻击，特别是提出了一种名为Dual-Key的新型攻击策略，它利用模型的复杂融合机制在视觉和文本输入中嵌入后门。攻击者通过在训练数据中加入精心设计的触发器，使得模型在特定输入下执行恶意行为。研究发现，多模态模型，尤其是视觉问答（VQA）模型，对这种攻击特别脆弱。为了创建有效且难以检测的后门，研究者提出了一种优化策略，用于在预训练物体检测器的特征空间中生成视觉触发器。实验结果显示，优化后的触发器可以实现超过98%的攻击成功率，同时仅毒害1%的训练数据。此外，研究还创建了一个大规模的VQA模型集合TrojVQA，以促进防御性研究。

工作难度不大，但工作量极大，工程价值极高。

3.3、Optimized Patches

3.4、Detectors and Models

3.5、Backdoor Training

3.6、Metrics

四、Design Experiments

4.1、Visual Trigger Design

4.2、Poisoning Percentage

4.3、Visual Trigger Scale

五、Breadth Experiments

5.1、Model Training & TrojVQA Dataset

5.2、Results

5.3、Weight Sensitivity Analysis

六、Conclusion & Discussion

后门攻击

先了解一下后门攻击：AI系统中的后门攻击与传统的攻防对抗中的后门是截然不同的，传统的后门是代码编写的，被植入到计算机中；而AI系统中的后门不是由代码编写的，而是通过修改训练数据实现的，在训练完成后后门就被植入到了模型内部，而又由于AI模型内部的黑箱特性，所以很难检测到后门，无法检测自然也就无法防御了。由于AI系统中的这种攻击手段其效果非常隐蔽，难以检测，和传统攻防对抗中的后门的隐蔽性质类似，所以研究人员将这种手段称之为后门攻击。
前面提到通过修改训练数据来攻击AI模型，这很容易让我们联想到数据投毒。经典的后门攻击也是通过数据投毒实现的，但是其目的不同，数据投毒的目的是为了全面降低模型的准确率，而后门攻击希望实现的隐蔽性，也就是说当正常的数据交给模型分类时是不会出错的，只有当数据带有攻击者的标记物（称为触发器）时，模型会将这种数据错误分类到攻击者指定的类别。接下来我们来看看后门攻击是怎么实现的。

上图很清楚地表明了后门攻击的流程，图中的触发器是右下角的白色方块。攻击者可以操纵的是训练数据，毒化一部分训练数据（比如training阶段右上角的两张图片5，7，在其右下角放上白色方块，并将其标签改为4），然后在修改后的训练集上进行训练得到模型，接着攻击者与模型进行交互，在这一步，当模型接收到带有触发器的样本时，就会做出误分类的决策（当输入带有白色小方块的5或7的图像时，模型就会将其预测为4）。

摘要

深度学习的成功推动了多模态任务的发展，这些任务需要对多个输入模态进行融合。尽管多模态模型在许多问题上显示出了潜力，但其日益复杂的特性使其更容易受到攻击。后门攻击是一类安全漏洞，其中攻击者将恶意的秘密行为嵌入进网络（例如上图的例子，有针对性的误分类），当攻击者向输入中添加指定的触发器时，该网络会被激活。

在这项工作中，我们证明了多模网络容易受到一种新型攻击，我们称之为Dual-Key多模态后门，这种攻击利用最先进的网络使用的复杂融合机制来嵌入既有效又隐蔽的后门。该攻击没有使用单个触发器，而是在每个输入模态中嵌入一个触发器，并且仅当两个触发器同时存在时才会激活恶意攻击行为。我们对视觉问答（VQA）任务中的多模态后门进行了广泛的研究，该任务具有多种网络体系结构（例如基于transformers的模型）和视觉backbone（例如对象特征和网格特征）。在VQA模型中嵌入后门的一个主要挑战是，大多数模型使用从固定的预训练对象检测器中提取的视觉特征，这对攻击者来说是一个挑战，因为探测器可能会完全扭曲或忽略视觉触发器，从而导致后门过度依赖语言触发器的模型，意思就是视觉模态的触发器不起作用。为了解决这个问题，我们提出了一种针对预训练目标检测器的视觉触发优化策略。通过这种方法，我们创建了Dual-Key后门，攻击成功率超过98%，同时只毒害了1%的训练数据。最后，我们发布了TrojVQA，这是一个VQA模型的大集合，以支持防御多模态后门的研究。

一、Introduction

随着深度学习在现实世界应用中越来越多地被采用，这些模型必须是可信的和有弹性的。在这项工作中，我们重点关注后门（也称特洛伊木马）攻击，这是一种 training-time攻击。在这里，攻击者会毒害一小部分训练数据，以引导网络一些恶意行为，这些行为在向输入添加秘密“密钥”或“触发器”时被激活，触发非常简单，可能会导致错误分类。

之前的工作主要是研究CV和NLP任务的DL模型中的后门攻击。在这里，我们重点研究多模态模型中的后门攻击，这些模型旨在执行需要复杂融合或跨多种模式转换信息的任务。最先进的多模态模型主要使用基于注意力的机制来有效地组合这些数据流。这些模型在更复杂的任务上表现良好，如visual captioning、Multimedia Retrieval和VQA。然而，在这项工作中，我们发现这些模型的复杂性增加了，同时也增加了对新型后门攻击的脆弱性。

我们提出了一种针对多模态网络的新型后门攻击，称为Dual-Key多模后门，它利用了这种网络在多个输入流中运行的特性。在传统的后门攻击中，一个网络被训练为只识别单个触发器，因为只有一种输入数据，并且训练集都是同一种数据。Dual-Key多模后门可以被视为一门多键，隐藏在多个输入流中。网络经过训练，只有在所有key都存在的情况下才能激活后门。图1显示了一个Dual-Key多模后门攻击示例，据我们所知，我们首先研究了多模态模型中的后门攻击。人们还可以在多模态模型中隐藏传统的单模态后门，然而，我们相信Dual-Key后门的主要优势是隐形，攻击者的一个主要目标是确保在正常操作期间不会意外激活后门，这会提醒用户后门存在。对于传统的单key后门，用户可能会意外地提供一个与触发器非常相似的输入，从而意外地打开后门。在Dual-Key后门的情况下，触发器分布在多个输入模态中，意外发现的可能性会呈指数级降低。

在VQA模型中嵌入后门的任务有几个挑战：首先，嵌入这两个输入模态的触发器的信号清晰度存在很大差异。我们在实验中发现，以离散的token表征的问题触发器比视觉触发器更容易学习。如果没有正确的预防措施，后门会学会过度依赖问题触发器而忽略视觉触发器，因此无法实现Dual-Key后门行为。其次，大多数现代VQA模型使用预训练对象检测器作为特征提取器，以实现更好的性能。这意味着所有视觉信息必须首先通过一个从未接受过检测视觉触发训练的探测器。因此，视觉触发器的信号可能会失真，甚至可能无法编码到图像特征中。为了应对这一挑战，我们提出了一种受XXX启发的触发优化策略，而adversarial patch用来产生视觉触发，从而产生高效的后门，攻击成功率超过98%，同时只毒害1%的训练数据。

最后，为了鼓励针对多模态后门的防御研究，我们组装了TrojVQA，这是一个包含840个VQA模型的大型集合，组织在一个类似于XXX创建的数据集中。总的来说，这项研究和数据集使用了超过4000个GPU小时的计算时间。我们希望这项工作将推动多模态模型和触发器后门防御的未来研究。总的来说，我们的贡献如下：