10.3969/j.issn.1671-0673.2022.02.002
基于CBHG的Mel谱精细结构重建
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量.基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络.该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量.实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26.
语音合成、CBHG、Mel谱、后处理网络、Tacotron 2、HiFi-GAN
23
TN912.33
国家自然科学基金;国家自然科学基金
2022-08-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
135-140