MLLR和MAP在远场噪声混响下的语音识别研究

引用

摘要：

自适应技术可以用较少的数据来调整声学模型参数,从而达到较好的语音识别效果,它们大多用于自适应有口音的语音.将最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)、最大后验概率(Maximum A Posteriori,MAP)自适应技术用在远场噪声混响环境下来分析其在此环境下的识别性能.实验结果表明,仿真条件下,在墙壁反射系数为0.6,各种噪声环境下MAP有最好的自适应性能,在信噪比(Signal-to-Noise Ratio,SNR)分别为5 dB、10 dB、15 dB时,MAP使远场连续语音词错率(Word Error Rate,WER)平均降低了1.51% 、12.82% 、2.95%.真实条件下,MAP使WER下降幅度最大达到了37.13%.进一步验证了MAP良好的渐进性,且当自适应句数为1 000时,用MAP声学模型自适应方法得到的远场噪声混响连续语音的识别词错率比自适应前平均降低了12.5%.

关键词：最大似然线性回归(MLLR)、最大后验概率(MAP)、环境自适应、远场语音识别

所属期刊栏目：56

分类号：TN912.34

资助基金：国家自然科学基金61371193

在线出版日期：2020-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：122-126

英文信息展示

期刊专题