10.3969/j.issn.1006-2475.2023.05.002
基于通道注意力和Transformer的图像标题生成方法
图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句.针对现有图像标题生成任务中,未充分利用图像的局部和全局特征以及时间复杂度较高的问题,本文提出一种基于卷积神经网络(Convolution Neural Networks,CNN)和Transformer的混合结构图像标题生成模型.考虑卷积网络所具有的空间和通道特性,首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块,用于从输入图像中提取视觉特征;然后将特征输入到序列模型Trans?former中,在编码器端借助自注意学习来获得所参与的视觉表示,在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用,进而结合视觉特征逐步得到图像所对应的标题描述.将模型在MSCOCO数据集上进行实验,BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点.
图像标题、Transformer、通道注意力、卷积神经网络、Encoder-Decoder模型
TP391(计算技术、计算机技术)
陕西省自然科学基础研究计划项目;陕西省教育厅科研计划项目
2023-06-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
8-12