一、什么是对抗样本
对抗样本是一类被恶意设计来攻击机器学习模型的样本。它们与真实样本的区别几乎无法用肉眼分辨,但是却会导致模型进行错误的判断。对抗样本的存在会使得深度学习在安全敏感性领域的应用收到威胁。
如下图所示,通过在自然图片上加入一些人工噪声来“欺骗”神经网络,使得神经网络输出错误的预测结果。

以经典的二分类问题为例,机器学习模型通过在样本上训练,学习出一个分割平面,在分割平面的一侧的点都被识别为类别一,在分割平面的另外一侧的点都被识别为类别二。生成攻击样本时,我们通过某种算法,针对指定的样本计算出一个变化量,该样本经过修改后,从人类的感觉无法辨识,但是却可以让该样本跨越分割平面,导致机器学习模型的判定结果改变。

二、对抗样本攻击方法
1. Fast gradient sign method (FGSM)
Goodfellow等人认为高维空间下深度神经网络的线性行为是导致该问题(存在对抗样本)的根本原因。提出了一种一步生成法来快速生成对抗样本,可以有效计算对抗扰动。
x^’=x + εsgn(∇_x L(θ,x,y)) non-target
x^’=x - εsgn(∇_x L(θ,x,y)) target on t
η = εsgn(∇_x L(θ,x,y))
x:原始图像
η:扰动
ε:表示控制扰动大小的自定义参数
L:损失函数
sgn:符号函数
FGSM的核心思想:通过让扰动方向与梯度方向一致,使损失函数值变化


1万+

被折叠的 条评论
为什么被折叠?



