期刊专题

10.11896/jsjkx.220500124

基于深度学习的视觉问答研究综述

引用
视觉问答是计算机视觉和自然语言处理的交叉领域.在视觉问答的任务中,机器首先需要对图像、文本这两种模态数据进行编码,进而学习这两种模态之间的映射,实现图像特征和文本特征的融合,最后给出答案.视觉问答任务考验模型对图像的理解能力以及对答案的推理能力.视觉问答是实现跨模态人机交互的重要途径,具有广阔的应用前景.最近相继涌现出了众多新兴技术,如基于场景推理的方法、基于对比学习的方法和基于三维点云的方法.但是,视觉问答模型普遍存在推理能力不足、缺乏可解释性等问题,值得进一步地探索与研究.文中对视觉问答领域的相关研究和新颖方法进行了深入的调研和总结.首先介绍了视觉问答的背景;其次分析了视觉问答的研究现状并对相关算法的和数据集进行了归纳总结;最后根据当前模型存在的问题对视觉问答的未来研究方向进行了展望.

视觉问答、跨模态、人机交互、推理能力、可解释性

50

TP181(自动化基础理论)

国家自然科学基金;郑州市协同创新重大专项

2023-05-12(万方平台首次上网日期,不代表论文的发表时间)

共12页

177-188

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

50

2023,50(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn