基于时序信息对齐的连续手语跨模态知识蒸馏
近年来,连续手语识别的研究工作主要围绕RGB模态的数据展开,并且在现实场景数据集和实验室采集数据集上都取得了显著进展.然而,RGB模态的处理对设备计算能力具有很高的要求,而骨骼关键点模态则由于输入数据复杂度相对低,因此处理速度更快,只是在识别性能上弱于RGB模态.为了综合两种方法的优点,文中提出了一种基于时序关联信息对齐的跨模态知识蒸馏方法(Temporally Related Knowledge Distillation,TRKD).该方法使用RGB模态的神经网络作为教师网络来指导使用骨骼关键点模态的学生网络,以快速准确地实现连续手语识别.由于教师网络对手语语境的理解能力十分值得学生网络学习,因此提出了具有先验信息以及自适应学习方法的图卷积网络来提取两类模态中的时序关联特征,并通过特征对齐来实现教学.在特征对齐过程中,在教师网络中引入可学习参数会导致教师提供的监督信息丢失.为了解决这个问题,所提出的TRKD方法引入了自监督学习中的对比学习来提供监督信息,从而实现了教师网络与学生网络在时序关联特征上的对齐.文中在Phoenix-2014手语数据集上组织了多项蒸馏任务,以验证所提方法的有效性.
知识蒸馏、图卷积网络、手语识别
49
TP311(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;国家自然科学基金;上海自然科学基金;上海智能计算系统工程研究中心
2022-11-10(万方平台首次上网日期,不代表论文的发表时间)
共7页
156-162