基于深度学习的语音合成与转换技术综述
语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景.文中旨在对基于深度学习的语音合成与转换技术进行综述.首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向.
语音信息处理;语音合成;语音转换;深度学习;生成对抗网络
48
TP301;TP18(计算技术、计算机技术)
国家重点研发计划;中国人民公安大学基本科研业务费重大项目
2021-08-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
200-208