改进MFCC和并行混合模型的语音情感识别
传统MFCC不仅忽略了浊音信号中基音频率的影响,还不能表征语音的动态特征,因此提出利用滑动平均滤波器滤除浊音信号的基音频率,并在提取完静态MFCC特征后再通过提取其一阶差分与二阶差分来获取动态特征.将得到的特征送入模型中进行训练,为了构建更高效的语音情感识别模型,搭建了一种融合多头注意力机制的并行混合模型.多头注意力机制不仅可以有效防止梯度消失现象,构建更深层的网络,各个注意力头还可以执行不同的任务来提高准确率.最后进行情感特征分类,传统softmax在进行分类时类内距离可能会变大导致模型的置信度差,因此引入了中心损失函数,将两者联合来进行分类.实验结果表明,所提方法在RAVDESS数据集和EMO-DB数据集上的准确率可以分别达到98.15%和96.26%.
语音情感识别、MFCC、多头注意力机制、滑动平均滤波器、softmax
50
TP183(自动化基础理论)
2023-09-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
156-162