10.3969/j.issn.1006-2475.2023.04.013
面向数据增强的轻量化语音情感识别
利用深度学习进行语音情感识别时通常需要大量的训练数据.针对现有语音情感数据库匮乏且数据量少容易造成过拟合的缺陷,本文在预处理阶段,将原始语音通过加入高斯白噪声和对波形进行位移产生新的语音信号以实现数据增强,不仅可提高识别准确率而且可增强模型的鲁棒性.与此同时,由于普通卷积神经网络参数量过大,提出一种轻量化模型,该模型由可分离卷积与门控循环单元构成.首先,从原始语音中提取MFCC特征作为模型的输入;其次利用可分离卷积来提取语音空间信息,门控循环单元提取语音的时序信息,用时序信息和空间信息同时表征语音情感可以使预测结果更加准确;最后送入带有softmax的全连接层完成情感分类.实验结果表明,本文模型与基准模型相比不仅可以得到较高的准确率且模型可压缩约50%.
语音情感识别、数据增强、高斯白噪声、波形位移、参数量
TP391(计算技术、计算机技术)
国家自然科学基金61901347
2023-05-11(万方平台首次上网日期,不代表论文的发表时间)
共8页
83-89,100