10.3778/j.issn.1002-8331.2110-0115
基于图结构的级联注意力视觉问答模型
视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念.大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合.目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法.提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系.在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性.
视觉问答、注意力机制、图卷积神经网络、特征融合
59
TP391(计算技术、计算机技术)
国家自然科学基金61871020
2023-03-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
155-161