K-VQA:一种知识图谱辅助下的视觉问答方法
依照所回答的问题类型区分,图像和文本的视觉问答大体分为2类,第1类是可以从图像中直接获取答案的问题,第2类是需借助外部知识获取答案的问题.目前的视觉问答方法只能在一类问题上具有较高的准确率,回答另一类问题的技术尚不成熟.为了扩大可回答的问题类型,设计了一种知识图谱辅助下的视觉问答方法——K-VQA.在基于深度学习VQA的基础上,通过查询知识图谱区分问题类型,对不同类型的问题采用最合适的方法进行回答,对于需借助外部知识进行回答的问题,利用图像和问题中的信息判断回答问题所需的实体和属性,抽取知识图谱中的三元组,获取问题答案.结果表明,不同的视觉问答技术适用于不同类型的问题,K-VQA方法既能回答简单问题也能回答推理性问题,准确率高达56.67%.因此,作为知识图谱辅助下的视觉问答方法,K-VQA可以回答更多类型的问题并获得较高的准确率,对于深入研究VQA和VQA方法具有重要的参考价值.
知识工程、视觉问答、外部知识、知识图谱、三元组
41
TP392(计算技术、计算机技术)
河北省自然科学基金F2018208116
2020-09-15(万方平台首次上网日期,不代表论文的发表时间)
共12页
315-326