基于高斯分布的对抗扰动后门攻击方法研究
在图像分类模型的攻防研究中,大部分后门攻击都是基于白盒模式的场景下发生的,攻击者需要控制训练数据和训练过程才可以实现后门攻击.这一条件导致了后门攻击难以在现实场景下发生.为了提高后门攻击的可行性,本文采用一种基于"灰盒"模式下的攻击场景,攻击者只需要控制训练数据,不必参与训练过程也可以实现后门攻击.现有的后门攻击方式通常是在干净样本中添加补丁作为后门触发器,这样的攻击方式很容易被人工发现或者被防御模型检测出来,而使用对抗攻击可以减少扰动量的异常分布,从而提高有毒样本的隐蔽性.基于这一思想,提出一种满足高斯分布的对抗扰动算法来生成后门触发器,与现有的对抗扰动不同,通过往每轮的对抗迭代中添加一次满足高斯分布的噪声,最后迭代完成后生成的后门触发器更加稳定和隐蔽,在逃避防御检测方面也有更好的效果.实验结果表明,只有平均不到10%的有毒样本会被防御检测到异常,相比于传统的方法被检测率降低了13%左右.
图像分类模型、后门攻击、高斯分布、对抗扰动
36
TP301.6(计算技术、计算机技术)
四川省科技计划项目;四川轻化工大学人才引进项目;四川轻化工大学研究生创新基金项目;桥梁无损检测与工程计算四川省高校重点实验室开放基金项目
2023-08-03(万方平台首次上网日期,不代表论文的发表时间)
共9页
52-60