基于CQT和梅尔频谱的带有人声的音乐风格转换方法
近年来,生成对抗网络在图像风格迁移领域中表现优秀,然而其在音乐领域表现一般.现有的音乐风格迁移对带有人声的音乐的风格迁移效果不佳.为了解决这些问题,首先提取音乐的CQT特征和梅尔频谱特征,然后采用CycleGAN对CQT特征和梅尔频谱的联合特征做风格迁移,再通过WaveNet声码器来对迁移后的谱图进行解码,最终实现了带有人声的音乐的风格迁移.在公开数据集FMA上对所提模型进行评估,符合要求的音乐的平均风格迁移率达到了94.07%.与其他算法相比,该方法所产生的音乐的风格迁移率和音频质量都优于其他算法.
生成对抗网络、风格迁移、音乐处理、表征学习
48
TP183(自动化基础理论)
高层次人才科研启动基金;国家级大学生创新创业训练计划项目;江苏省高等学校哲学社会科学基金
2021-07-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
326-330,363