10.12407/j.issn.2097-2075.2022.01.089
眼动—语言跨模态共指消解方法
跨模态共指消解是根据人员交互意图对自然图像中所指目标进行定位,作为智能人机交互领域的关键技术之一,能够应用于抢险救灾、家庭服务或养老助残等场景.现有的目标指代方法一般采用单模态信息表现人类意图,例如语言或者眼动等,然而单一的模态用户输入只能够传达有限的交互信息,难以实现自然而智能的人机协同.本文针对这一问题,同时融合眼动和语言信息,建立了跨模态共指消解模型,利用多种模态信息的优势互补,实现人类意图所指目标的图像定位任务;设计了对比试验,验证了本文提出的眼动—语言跨模态的融合方法性能优于单模态的输入形式.
深度学习、跨模态、目标定位、眼动、自然语言处理
1
TP391(计算技术、计算机技术)
2023-10-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
89-95