期刊专题

10.3969/j.issn.1671-6906.2020.01.011

增强视觉特征的视觉问答任务研究

引用
视觉问答是一种涉及计算机视觉和自然语言处理两大领域的学习任务.该任务融合视觉和语言的特征实现问答,是多模态研究的重要任务之一,已经成为人工智能领域的一个研究重点.通过对已有模型的分析,现有方法在进行图像特征表示时,仅仅只采用图像的网格特征、对象特征等整体视觉特征,而忽略了图像中对象本身以及不同对象之间的位置信息.提出在原有视觉特征的基础上,引入图像中每个对象的坐标信息,得到增强的视觉特征,使模型能够更加准确地学习图像中所蕴含的深层语义.在VQA-v2数据集上的对比实验证明,在图像特征中融入对象的坐标信息有效提高了本文模型的性能.

视觉问答、深度学习、注意力机制、对象位置坐标信息

31

G642(高等教育)

国家自然科学基金项目;河南省科技攻关项目

2020-05-07(万方平台首次上网日期,不代表论文的发表时间)

共7页

56-61,73

暂无封面信息
查看本期封面目录

中原工学院学报

1671-6906

41-1341/T

31

2020,31(1)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn