10.16652/j.issn.1004-373x.2024.01.016
基于ResCNN-BiGRU的四川方言语音识别
由于基于深度卷积神经网络的语音识别模型中缺乏对特定方言音素特征的提取能力,造成方言发音底层特征部分信息丢失,进而导致方言识别准确率不高、鲁棒性差等问题.针对上述问题,提出一种结合残差网络(RestNet)和双向门控循环网络(BiGRU)的模型,该模型以GFCC特征图为输入,同时在残差网络中设计多尺度卷积模块,通过不同大小的卷积核提取特征,然后使用双向门控循环网络捕捉序列数据中的长期依赖关系,最后采用连接时序分类算法进行标签软对齐,实现四川方言语音识别模型.在四川方言语料库上的实验结果表明,提出的模型识别性能优于现有基准模型.
四川方言、音素特征、双向门控循环网络、多尺度卷积、连接时序分类、标签软对齐
47
TN912.3-34
2024-01-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
89-93