基于自适应GMM阶数与混合特征的说话人识别研究
针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法.首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维的MFCC和LPMFCC参数组合的混合特征参数,以增强说话人的特征信息.然后,根据自适应思想,在K-means聚类算法中计算簇内误差平方和(SSE).最后,通过肘部法则自适应调整K值,以获得一个最优GMM阶数,使得系统在已有的声纹特征下获得最优的识别效果.结果表明,该算法不仅完善了说话人的特征信息,并且克服了对GMM阶数选取的缺陷.最终结合LPCC和MFCC两种特征算法,融合得到的混合特征LPMFCC+MFCC的识别率相比于LPCC和MFCC提升了26.34%和12.34%.
说话人识别、高斯混合模型、梅尔频率倒谱系数、线性预测梅尔系数、Fisher准则、自适应
37
TP391(计算技术、计算机技术)
四川省科技厅重点研发项目2022YFS0554
2024-09-04(万方平台首次上网日期,不代表论文的发表时间)
共9页
75-83