10.16652/j.issn.1004-373x.2022.23.017
基于ResNeSt网络的音频欺骗检测
目前最先进的语音合成和语音转换模型能够生成人耳无法区分的虚假语音,这对自动说话人验证(ASV)系统的安全构成巨大威胁.近年来,越来越多抗欺骗对策用于提高ASV系统的可靠性.然而,在实际使用中,在检测未知攻击时遇到困难,特别是,合成语音欺骗算法的快速发展正在产生越来越强大的未知攻击.在这项工作中,由于ResNeSt网络模型在图像分类和检测任务中取得较好的成绩,因此构建了残差卷积神经网络的变体ResNeSt,使用时域二维特征转换、频域特征等各种特征提取方法(MFCC、LFCC、CQCC)来检测未知的合成语音欺骗攻击.实验结果表明,ResNeSt系统在ASV的逻辑评估集上达到了6.04%的等错误率(EER),相比ASVspoof2019的基线模型提高了25%的性能.
自动说话人验证、ResNeSt模型、语音合成、语音转换、倒谱系数、EER、神经网络
45
TN912.3-34
国防科技基础加强计划;国家自然科学基金
2022-12-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
88-92