DOI：10.16652/j.issn.1004-373x.2022.15.016

一种融合多通道CycleGAN和Mixup的情感语音合成方法

引用

摘要：

现有的循环一致性生成对抗网络(CycleGAN)提供了一个双向情感语料转化的突破,但是真实目标和转换后的语音之间仍然存在很大的差距.为了缩小这一差距,提出融合多通道CycleGAN和Mixup的情感语音合成方法,包含三个阶段:多通道CycleGAN、基于Mixup的损失估计和基于Mixup的有效情感区域加重.其中,设计门控单元GTLU和音频显著性区域的图像表达方法,结合基于改进GTLU的全局CycleGAN和基于显著性区域的局部CycleGAN构成了第一个阶段中的多通道CycleGAN,基于Mixup方法设计了损失的计算方法和情感区域的不同加重程度计算.结合多项流行的语音合成方法,在IEMOCAP情感语料库上实施了多组生成情感语料的对比实验,利用双向三层长短期记忆网络(LSTM)模型作为验证模型,实验结果证明,所提出的情感语音合成方法获得的语音,其平均意见得分(MOS)和语音情感识别精度(UA)均有不同程度的提升,分别获得3.4％和2.7％的改善,在主观评价和客观实验上均优于现有的GANs模型,从而确保该模型生成语音具备高可靠性和良好的自然度.

关键词：情感语音合成、多通道CycleGAN、Mixup、GTLU、图像重构、损失估计、有效情感区域加重

所属期刊栏目：45

分类号：TN912.3-34;TP183

资助基金：辽宁省教育厅校际合作项目;大连市科技计划项目

在线出版日期：2022-08-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：80-87

英文信息展示

期刊专题