10.3969/j.issn.1671-1815.2022.18.026
基于卷积循环神经网络的语音逻辑攻击检测
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险.为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN.模型中卷积神经网络(convolutional neural network,CNN)部分可以进行下采样,循环神经网络(recurrent neural network,RNN)部分解决语音中的时序问题,深度神经网络(deep neural network,DNN)部分则实现分类功能.每种混合网络模型包含20层网络层.对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%.比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCCs)特征及混合梅尔倒谱系数线性频率倒谱系数(linear frequency cepstral coefficient,LFCC)特征更适合此模型.
CNN-RNN-DNN、混合网络模型、混合声学特征、等错误率、ASVspoof2019
22
TN912.3;TP391.4
国家重点研发计划;广州市科技计划;司法部司法鉴定重点实验室开放课题
2022-08-05(万方平台首次上网日期,不代表论文的发表时间)
共8页
7937-7944