基于视觉关联与上下文双注意力的图像描述生成方法

引用

摘要：

图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.

关键词：图像描述生成、双注意力机制、视觉关联注意力、上下文注意力

所属期刊栏目：33

分类号：TP391(计算技术、计算机技术)

在线出版日期：2022-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：3210-3222

英文信息展示

期刊专题