DOI：10.19363/J.cnki.cn10-1380/tn.2023.09.02

面向恶意PDF文档分类的对抗样本生成方法研究

引用

摘要：

通过恶意文档来传播恶意软件在现代互联网中是非常普遍的,这也是众多机构面临的最高风险之一.PDF文档是全世界应用最广泛的文档类型,因此由其引发的攻击数不胜数.使用机器学习方法对恶意文档进行检测是流行且有效的途径,在面对攻击者精心设计的样本时,机器学习分类器的鲁棒性有可能暴露一定的问题.在计算机视觉领域中,对抗性学习已经在许多场景下被证明是一种有效的提升分类器鲁棒性的方法.对于恶意文档检测而言,我们仍然缺少一种用于针对各种攻击场景生成对抗样本的综合性方法.在本文中,我们介绍了PDF文件格式的基础知识,以及有效的恶意PDF文档检测器和对抗样本生成技术.我们提出了一种恶意文档检测领域的对抗性学习模型来生成对抗样本,并使用生成的对抗样本研究了多检测器假设场景的检测效果(及逃避有效性).该模型的关键操作为关联特征提取和特征修改,其中关联特征提取用于找到不同特征空间之间的关联,特征修改用于维持样本的稳定性.最后攻击算法利用基于动量迭代梯度的思想来提高生成对抗样本的成功率和效率.我们结合一些具有信服力的数据集,严格设置了实验环境和指标,之后进行了对抗样本攻击和鲁棒性提升测试.实验结果证明,该模型可以保持较高的对抗样本生成率和攻击成功率.此外,该模型可以应用于其他恶意软件检测器,并有助于检测器鲁棒性的优化.

关键词：恶意PDF文档、对抗样本、文档分类、样本生成、鲁棒性

所属期刊栏目：8

分类号：TP181;TP393.0(自动化基础理论)

在线出版日期：2023-10-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：14-26

英文信息展示

期刊专题