深度多模态表示学习的研究综述

引用

摘要：

尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用.虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能.然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决.迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确.根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类.同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用.

关键词：多模态表示、深度学习、多模态融合、多模态对齐

所属期刊栏目：59

分类号：TP181(自动化基础理论)

在线出版日期：2023-02-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：48-64

英文信息展示

期刊专题