期刊专题

10.3778/j.issn.1002-8331.2110-0115

基于图结构的级联注意力视觉问答模型

引用
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念.大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合.目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法.提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系.在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性.

视觉问答、注意力机制、图卷积神经网络、特征融合

59

TP391(计算技术、计算机技术)

国家自然科学基金61871020

2023-03-30(万方平台首次上网日期,不代表论文的发表时间)

共7页

155-161

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

59

2023,59(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn