DOI：10.16652/j.issn.1004-373x.2023.21.007

基于改进语谱图的深度学习说话人识别

引用

摘要：

为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法.语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进.在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果.网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用.在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%.

关键词：语谱图、基音频率、梳状滤波器、深度学习、说话人识别、深度可分离卷积

所属期刊栏目：46

分类号：TN912.34-34;TP183

在线出版日期：2023-11-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：32-38

英文信息展示

期刊专题