10.16511/j.cnki.qhdxxb.2017.26.041
基于Kinect辅助的机器人带噪语音识别
音视频信息融合可以提升机器人在噪声环境下的语音识别性能.然而受说话者的头部旋转、唇部尺寸不一、距摄像头距离不固定以及光照等因素影响,唇部信息不能得到有效的全面表征.该文提出融合机器人与Kinect的多模态系统.该系统采用Kinect获取3-D数据和视觉信息,并使用3-D数据重构侧唇来补充音视频信息.一系列基于特征融合和决策融合方法的结果表明:该文提出的多模态系统优于基于音视频单流和双流的语音识别系统,能够辅助机器人在自身噪声环境下的语音识别.
仿人机器人、自身噪声、自动语音识别、Kinect、多模态系统
57
TP242;TN912.34(自动化技术及设备)
国家自然科学基金;国家自然科学基金;天津市自然科学基金
2018-07-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
921-925