DOI：10.11896/j.issn.1002-137X.2014.10.003

面向自然交互的多通道人机对话系统

引用

摘要：

人们在对话过程中,除了使用口语交互外,还会很自然地利用表情、姿态等多模态信息辅助交流.重点分析并阐述了如何将这些多模态交互方式有效地融合到人机对话模型中,并实现一个面向自然交互的多模态人机对话系统.首先根据不同通道(如情感、头姿)对语音交互的影响,将它们主要分为信息互补、信息融合和信息独立3种模式,并针对3种模式分别采用不同的方式实现输入信息的多模态融合.信息融合后的对话管理,采用有限自动机、填槽法和混合主导方式的对话管理策略.针对对话中的情感处理,提出一种情感状态预测网络来记录用户的情感变化,并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈,该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息.信息输出方面,针对人机对话中较为常用的数字虚拟人的行为控制,提出了一种简化的多模态协同置标语言,实现了虚拟人的包括情感、姿态与语音的同步表达,提高了虚拟人的表现力.最后基于以上关键技术,实现了一个面向城市路况信息查询的多模态自然人机对话系统.多个用户的体验表明,相对于传统的语音人机对话模型,多通道自然人机对话系统能有效提高用户交互的自然度.

关键词：多模态信息融合、人机交互、对话管理

所属期刊栏目：41

分类号：TP37(计算技术、计算机技术)

资助基金：对话管理为中心的双向多模态人机交互研究90820303;基于影像和语音分析的发音器官运动可视化61273288;语音产生过程的神经生理建模与控制61233009;文本无关的语音转换方法研究60873160;基于维度模型的情感语音建模及生成方法研究61203258

在线出版日期：2014-12-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：12-18,35

英文信息展示

期刊专题