基于声学特征空间非线性流形结构的语音识别声学模型
从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型.将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型.将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型.最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定.文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法.基于RM 语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM),新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.
语音识别、声学模型、非线性流形、混合因子分析
国家自然科学基金61403415,61175017资助Supported by National Natural Science Foundation of China 61403415,61175017
2015-06-03(万方平台首次上网日期,不代表论文的发表时间)
共10页
1024-1033