基于改进Transformer的连续手语识别方法
连续手语识别是一项具有挑战性的任务,当前大多数模型忽略了对长序列的整体建模能力,导致对较长手语视频的识别和翻译准确率较低.Transformer模型独特的编解码结构可用于手语识别,但其位置编码方式以及多头自注意力机制仍有待改善.因此,文中提出了一种基于改进Transformer模型的连续手语识别方法,通过多处复用的带参数位置编码对连续手语句子中的每个词向量进行多次循环计算,准确掌握各个词之间的位置信息;在注意力模块中添加可学习的记忆键值对形成持久记忆模块,通过线性高维映射等比例扩大注意力头数与嵌入维度,最大程度地发挥Transformer模型的多头注意力机制对较长手语序列的整体建模能力,深入挖掘视频内部各帧中的关键信息.所提方法在最具权威的连续手语数据集PHOENIX-Weather 2014[1]和PHOENIX-Weather2014-T[2]上取得了有竞争力的识别结果.
连续手语识别、Transformer、多头注意力、位置编码
49
TP391(计算技术、计算机技术)
山东省重点研发计划项目2017GGX10127
2023-05-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
561-566