对抗样本简介

最新推荐文章于 2026-04-01 09:51:24 发布

原创

最新推荐文章于 2026-04-01 09:51:24 发布 · 1.1w 阅读

标签

#网络安全 #对抗样本

收录于

一、什么是对抗样本

对抗样本是一类被恶意设计来攻击机器学习模型的样本。它们与真实样本的区别几乎无法用肉眼分辨，但是却会导致模型进行错误的判断。对抗样本的存在会使得深度学习在安全敏感性领域的应用收到威胁。
如下图所示，通过在自然图片上加入一些人工噪声来“欺骗”神经网络，使得神经网络输出错误的预测结果。
在这里插入图片描述
以经典的二分类问题为例，机器学习模型通过在样本上训练，学习出一个分割平面，在分割平面的一侧的点都被识别为类别一，在分割平面的另外一侧的点都被识别为类别二。生成攻击样本时，我们通过某种算法，针对指定的样本计算出一个变化量，该样本经过修改后，从人类的感觉无法辨识，但是却可以让该样本跨越分割平面，导致机器学习模型的判定结果改变。
在这里插入图片描述

二、对抗样本攻击方法

1. Fast gradient sign method (FGSM)
Goodfellow等人认为高维空间下深度神经网络的线性行为是导致该问题（存在对抗样本）的根本原因。提出了一种一步生成法来快速生成对抗样本，可以有效计算对抗扰动。
x^’=x + εsgn(∇_x L(θ,x,y)) non-target
x^’=x - εsgn(∇_x L(θ,x,y)) target on t
η = εsgn(∇_x L(θ,x,y))
x：原始图像
η：扰动
ε：表示控制扰动大小的自定义参数
L：损失函数
sgn：符号函数
FGSM的核心思想：通过让扰动方向与梯度方向一致，使损失函数值变化