Adversarial examples in the physical world

最新推荐文章于 2025-10-14 09:48:42 发布

原创

最新推荐文章于 2025-10-14 09:48:42 发布 · 1.7k 阅读

标签

#深度学习

本文基于现实环境，研究机器学习系统受对抗样本攻击情况。通过手机摄像头获取对抗样本图像输入分类器，证实即使经相机观察，仍有大量对抗样本被误分类。还介绍了生成对抗图像的方法，通过实验分析了对抗图像的破坏率等，证明物理世界中机器学习系统可能存在对抗样本。

# Adversarial examples in the physical world
文献链接： https://arxiv.org/abs/1607.02533

摘要

现有的大多数机器学习分类器极易受到对抗样本的攻击。当前，很多对抗样本是直接将数据输入至分类器中，但是在现实中，并不能直接将图片数据输入系统，而是通过相机等传感器将信号输入系统的。本文在基于此类现实环境做出相关研究。发现在此种情况下，机器学习模型仍然也是很容易受到对抗样本的攻击。作者通过手机摄像头获得对抗样本的图像，然后输入ImageNet Inception分类器中，通过分类精度来证实了，即使通过摄像机观察，也有很大一部分对抗样本被误分类。

1.引言

当前，机器学习和神经网络在文字、图像和视频等领域能够解决很多重要的实际问题。然而，机器学习模型对于对抗样本是脆弱的。特别是分类器类型的模型尤为凸显脆弱。而该问题可概括为：假设M为机器学习系统，C干净的输入样本，A为构造的对抗样本，视觉上与C无异。则有 $M(C)=y_{true},M(A)\neq y_{true}$ ，而对抗样本被错误分类的概率远远高于受到噪声干扰的样本，即使噪声的幅度远远大于对抗性扰动。对抗样本对于机器学习应用产生许多潜在的威胁。特别是研究表明对抗样本具有多模型泛化性，且在实际环境中已验证。

之前基于对抗样本的所有研究都是攻击者直接向机器学习模型中输入对抗样本数据的威胁模型，这样的威胁模型可以描述一些攻击完全发生在计算机中的场景，例如避开垃圾邮件过滤器或恶意软件检测器，而在现实环境中，许多机器学习系统是运行现实世界中的，例如机器人通过各类传感器来感知世界等等。在这种情况下，攻击者不能依赖对输入数据进行细粒度每像素修改的能力。因此产生了一个问题：是否仍有可能对在现实世界中运行并通过各种传感器而不是数字表示来感知数据的机器学习系统产生对抗样本并执行对抗性攻击？

在2016年，Sharif等人与本文做出一些比较相似的工作，Sharif et 等人将对抗样本的图像打印在纸上，并证明打印的图像在拍摄时攻击了图像识别系统。与之比较，与sharif等人的工作存在的不同点是：

（1）我么在大多数实验中使用代价较低的封闭式攻击，而Sharif et等人使用基于优化算法的更高代价的攻击。

（2）我们没有特别的修改对抗样本，以提高他们在印刷和摄影过程中留存几率。我们仅做了一个科学观察，很多对抗样本在没有任何干预的情况下是保留下来的。而Sharif et等人引入额外的特征，使其攻击更加有效地针对人脸识别系统。

（3） Sharif等人虽然限制了图片的可修改像素区域（仅限眼镜架上的像素），但可以大量修改这些像素；而我们限制了我们可以修改一个像素的数量，但可以修改任何像素。

我们使用了预先训练的ImageNet Inception分类器进行了实验（Szegedy等，2015）。为此模型生成对抗样本，然后通过手机摄像头将这些样本提供给分类器，并测量分类准确性。此场景是一个简单的物理世界系统，该系统通过摄像机感知数据，然后进行图像分类。我们发现，即使通过相机感知，为原始模型生成的大部分对抗样本仍然分类错误。
结果的局限性在于假设了一种威胁模型，攻击者完全了解模型的体系结构和参数值。这主要是因为可以在所有实验中使用单个Inception v3模型，而无需设计和训练其他高性能模型。对抗样本转移属性意味着实验的结果可以小幅扩展到攻击者无法访问模型描述的情况（Szegedy等，2014； Goodfellow等，2014； Papernot等，2016b）。虽然我们没有进行详细的实验来研究物理对抗样本的可移植性，但是我们能够构建一个简单的电话程序来演示物理世界中潜在的对抗黑盒攻击。
为了更好地了解由相机引起的普通图像变换如何影响对抗样本的可传递性，我们进行了一系列其他实验，研究了对抗样本如何在几种特定类型的合成图像变换之间进行传递。