10.16652/j.issn.1004-373x.2023.21.007
基于改进语谱图的深度学习说话人识别
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法.语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进.在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果.网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用.在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%.
语谱图、基音频率、梳状滤波器、深度学习、说话人识别、深度可分离卷积
46
TN912.34-34;TP183
2023-11-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
32-38