10.16157/j.issn.0258-7998.222903
基于深度学习的词语级中文唇语识别
在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要.针对词语级中文唇语识别的问题,提出了 SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进.最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了 77.64%,平均字错率为21.68%.
唇语识别、ResNet、Bi-LSTM、CTCLoss、自注意力机制
48
TP391.4(计算技术、计算机技术)
2023-01-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
54-58