视觉语音参数的自动估计
视觉语音参数估计在视觉语音的研究中占有重要的地位.从MPEG-4定义的人脸动画参数FAP中选择24个与发音有直接关系的参数来描述视觉语音,将统计学习方法和基于规则的方法结合起来,利用人脸颜色概率分布信息和先验形状及边缘知识跟踪嘴唇轮廓线和人脸特征点,取得了较为精确的跟踪效果.在滤除参考点跟踪中的高频噪声后,利用人脸上最为突出的4个参考点估计出主要的人脸运动姿态,从而消除了全局运动的影响,最后根据这些人脸特征点的运动计算出准确的视觉语音参数,并得到了实际应用.
视觉语音、人脸动画参数(FAP)、混合高斯模型(GMM)、变形模板
42
TP391(计算技术、计算机技术)
高等学校博士学科点专项科研项目20010003049;北京科技大学校科研和教改项目20040509190
2005-09-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
1185-1190