10.3969/j.issn.1671-6906.2020.01.011
增强视觉特征的视觉问答任务研究
视觉问答是一种涉及计算机视觉和自然语言处理两大领域的学习任务.该任务融合视觉和语言的特征实现问答,是多模态研究的重要任务之一,已经成为人工智能领域的一个研究重点.通过对已有模型的分析,现有方法在进行图像特征表示时,仅仅只采用图像的网格特征、对象特征等整体视觉特征,而忽略了图像中对象本身以及不同对象之间的位置信息.提出在原有视觉特征的基础上,引入图像中每个对象的坐标信息,得到增强的视觉特征,使模型能够更加准确地学习图像中所蕴含的深层语义.在VQA-v2数据集上的对比实验证明,在图像特征中融入对象的坐标信息有效提高了本文模型的性能.
视觉问答、深度学习、注意力机制、对象位置坐标信息
31
G642(高等教育)
国家自然科学基金项目;河南省科技攻关项目
2020-05-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
56-61,73