-
Intriguing properties of neural networks(Box-constrained L-BFGS)
寻找最小的损失函数添加项,使得神经网络做出误分类,这就将问题转化成了凸优化过程
作者发现了可以通过对抗攻击使神经网络做出错误的预测,需要在图片上加入一些微小的扰动信息得到对抗样本,这些扰动信号要足够小不容易区分。该扰动是通过最大化网络的预测误差发现的。 此外,这些扰动的特定性质不是学习的随机产物:相同的扰动会导致在数据集的不同子集上训练的不同网络对相同输入出现分类错误。最小必要扰动的精确配置是在反向传播学习的不同运行中出现的正常变化的随机产物。
作者提出了一种生成对抗样本的方法,称为 Box-constrained L-BFGS,令 f 表示已训练好的神经网络,r 表示扰动信号,l 表示希望模型最终预测得到的类别,则需要优化的问题(box-constrained optimization problem)如下:
可以得到对应的目标函数:
上面的目标函数中分为两部分,第一部分是 c|r| 这一部分限制 r 不能太大;第二部分是分类的损失函数 loss,通过优化这个 loss 可以让神经网络把样本 x+r 预测为 l 类别的概率更大。
其中, lossf 为损失函数,L 为错误分类的类别 ( f(x+r)=l ,f(x)≠l ), c为惩罚参数用于控制 |r| 。这个问题可以用box-constrained L-BFGS方法来求解。
2.Explaining and Harnessing Adversarial Examples(FGSM:Fast Gradient Sign Method)
通过用识别概率最小的类别(目标类别)代替对抗扰动中的类别变量,再将原始图像减去该扰动,原始图像就变成了对抗样本,并能输出目标类别。
综述论文:对抗攻击的12种攻击方法和15种防御方法 | 机器之心 (jiqizhixin.com)
【炼丹技巧】功守道:NLP中的对抗训练 + PyTorch实现 - 知乎 (zhihu.com)
吐血整理 | AI新方向:对抗攻击 - 知乎 (zhihu.com)
[论文笔记] FGSM:Fast Gradient Sign Method - 知乎 (zhihu.com)