基于深度学习的视觉问答研究综述

引用

摘要：

视觉问答是计算机视觉和自然语言处理的交叉领域.在视觉问答的任务中,机器首先需要对图像、文本这两种模态数据进行编码,进而学习这两种模态之间的映射,实现图像特征和文本特征的融合,最后给出答案.视觉问答任务考验模型对图像的理解能力以及对答案的推理能力.视觉问答是实现跨模态人机交互的重要途径,具有广阔的应用前景.最近相继涌现出了众多新兴技术,如基于场景推理的方法、基于对比学习的方法和基于三维点云的方法.但是,视觉问答模型普遍存在推理能力不足、缺乏可解释性等问题,值得进一步地探索与研究.文中对视觉问答领域的相关研究和新颖方法进行了深入的调研和总结.首先介绍了视觉问答的背景;其次分析了视觉问答的研究现状并对相关算法的和数据集进行了归纳总结;最后根据当前模型存在的问题对视觉问答的未来研究方向进行了展望.

关键词：视觉问答、跨模态、人机交互、推理能力、可解释性

所属期刊栏目：50

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金;郑州市协同创新重大专项

在线出版日期：2023-05-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：177-188

英文信息展示

期刊专题