10.3969/j.issn.1006-2475.2022.08.001
混合CTC/Attention模型在普通话识别中的应用
基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高.本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势.实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降.
语音识别、链接时序分类、注意力机制、端到端
TP39(计算技术、计算机技术)
山东省重大科技创新工程项目;山东省重点研发计划项目
2022-08-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
1-6