视觉问答研究综述

引用

摘要：

视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有的综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现,视觉问答模型强烈依赖语言偏见和数据集的分布,特别是自VQA-CP数据集发布以来,许多模型的效果大幅度下降.主要详细介绍近年来提出的算法以及发布的数据集,特别是讨论了算法在加强鲁棒性方面的研究.对视觉问答任务的算法进行分类总结,介绍了其动机、细节以及局限性.最后讨论了视觉问答任务的挑战及展望.

关键词：视觉问答;交叉方向;语言偏见;数据集分布;鲁棒性

所属期刊栏目：32

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金61772534,61732006

在线出版日期：2021-08-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共23页

页码：2522-2544

英文信息展示

期刊专题