10.13232/j.cnki.jnju.2021.05.009
基于生成对抗网络的音频目标分类对抗
音频对抗样本可以用于提高音频目标分类系统的可靠性,然而目前音频对抗样本的感知质量较低,生成质量不能令人满意.为提升音频对抗样本的质量,首次采用生成对抗网络(Generative Adversarial Network,GAN)实现音频目标分类的对抗样本生成.提出用于音频目标分类对抗样本生成的通用GAN框架,将待攻击的分类模型引入GAN.在此基础上,提出基于GAN的分段扰动/整体攻击(GAN-based Segmented-perturbation Overall-attack,SOGAN)方法.SOGAN通过对抗训练,学习短时分段音频数据上的有效扰动,按照与原始音频的对应关系生成整体扰动,并形成时长可变的对抗样本.该方法可以缩小音频对抗样本的搜索空间,降低对抗样本生成的复杂度.在UrbanSound8k,ESC50等音频目标分类数据集上的实验表明,和已有音频目标对抗样本设计方法相比,所提方法生成的对抗样本可感知性更低,对典型音频目标分类系统具有较高的攻击成功率和攻击效率.
音频信号处理;对抗样本;音频目标分类;生成对抗网络
57
TP391;TN912(计算技术、计算机技术)
国家自然科学基金62071484
2021-12-21(万方平台首次上网日期,不代表论文的发表时间)
共8页
793-800