10.3778/j.issn.1002-8331.2107-0249
基于双通道卷积门控循环网络的语音情感识别
为了构建高效的语音情感识别模型,充分利用不同情感特征所包含的信息,将语谱图特征和LLDs特征相结合,构建了一种基于自注意力机制的双通道卷积门控循环网络模型.同时,为了解决交叉熵损失函数无法增大语音情感特征类内紧凑性和类间分离性的问题,结合一致性相关系数提出新的损失函数——一致性相关损失(CCC-Loss).将语谱图和LLDs特征分别输入CGRU模型提取深层特征并引入自注意力机制为关键时刻赋予更高的权重;使用CCC-Loss与交叉熵损失共同训练模型,CCC-Loss将不同类情感样本的一致性相关系数之和与同类情感样本的一致性相关系数之和的比值作为损失项,改善了样本特征的类内类间相关性,提高了模型的特征判别能力;将两个网络的分类结果进行决策层融合.所提出的方法在EMODB、RAVDESS以及CASIA数据库上分别取得了92.90%、88.54%以及90.58%的识别结果,相比于ACRNN、DSCNN等基线模型识别效果更好.
语音情感识别、卷积神经网络、门控循环单元、自注意力机制、损失函数、深度学习、一致性相关系数
59
TP301(计算技术、计算机技术)
山西省回国留学人员科研教研资助项目HGKY2019025
2023-02-09(万方平台首次上网日期,不代表论文的发表时间)
共8页
170-177