10.3969/j.issn.1671-1122.2024.08.003
基于特征空间相似的隐形后门攻击
后门攻击指通过在深度神经网络模型训练过程中对原模型植入特定的触发器,导致模型误判的攻击.目前后门攻击方案普遍面临触发器隐蔽性差、攻击成功率低、投毒效率低与中毒模型易被检测的问题.为解决上述问题,文章在监督学习模式下,提出一种基于特征空间相似理论的模型反演隐形后门攻击方案.该方案首先通过基于训练的模型反演方法和一组随机的目标标签类别样本获得原始触发器.然后,通过Attention U-Net网络对良性样本进行特征区域分割,在重点区域添加原始触发器,并对生成的中毒样本进行优化,提高了触发器的隐蔽性和投毒效率.通过图像增强算法扩充中毒数据集后,对原始模型再训练,生成中毒模型.实验结果表明,该方案在保证触发器隐蔽性的前提下,在GTSRB和CelebA数据集中以1%的投毒比例达到97%的攻击成功率.同时,该方案保证了目标样本与中毒样本在特征空间内相似性,生成的中毒模型能够成功逃脱防御算法检测,提高了中毒模型的不可分辨性.通过对该方案进行深入分析,也可为防御此类后门攻击提供思路.
数据投毒、后门攻击、特征空间相似、监督学习
24
TP309(计算技术、计算机技术)
国家自然科学基金62172377
2024-10-11(万方平台首次上网日期,不代表论文的发表时间)
共10页
1163-1172