一种RNN-T与BERT相结合的端到端语音识别模型

引用

摘要：

端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型.然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能.而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用.本文提出一种将RNN-T(Recurrent Neural Network Transducer,RNN-T)模型与BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行结合的方法来解决上述问题,其通过用BERT模型替换RNN-T中的预测网络部分,并对整个网络进行微调,从而使RNN-T模型能有效利用B ERT模型中的语言学知识,进而提高模型的识别性能.在中文普通话数据集AISHELL-1上的实验结果表明,采用所提出的方法训练后的模型与基线模型相比能获得更好的识别结果.

关键词：语音识别、端到端模型、BERT模型

所属期刊栏目：11

分类号：TP183(自动化基础理论)

资助基金：国家重点研发项目2017YFB1002102

在线出版日期：2021-04-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：169-173

英文信息展示

期刊专题