改进MFCC和并行混合模型的语音情感识别

引用

摘要：

传统MFCC不仅忽略了浊音信号中基音频率的影响,还不能表征语音的动态特征,因此提出利用滑动平均滤波器滤除浊音信号的基音频率,并在提取完静态MFCC特征后再通过提取其一阶差分与二阶差分来获取动态特征.将得到的特征送入模型中进行训练,为了构建更高效的语音情感识别模型,搭建了一种融合多头注意力机制的并行混合模型.多头注意力机制不仅可以有效防止梯度消失现象,构建更深层的网络,各个注意力头还可以执行不同的任务来提高准确率.最后进行情感特征分类,传统softmax在进行分类时类内距离可能会变大导致模型的置信度差,因此引入了中心损失函数,将两者联合来进行分类.实验结果表明,所提方法在RAVDESS数据集和EMO-DB数据集上的准确率可以分别达到98.15％和96.26％.

关键词：语音情感识别、MFCC、多头注意力机制、滑动平均滤波器、softmax

所属期刊栏目：50

分类号：TP183(自动化基础理论)

在线出版日期：2023-09-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：156-162

英文信息展示

期刊专题