期刊专题

10.3969/j.issn.1671-1815.2022.32.030

融合自上而下和自下而上注意力的图像描述生成

引用
随着互联网的普及,每天都有海量的图片被传入互联网中.为了能更好地利用这些图片的价值,图像描述生成技术应运而生.提出一种融合自上而下和自下而上注意力的图像描述生成模型.在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit,GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory,LSTM)解析图像特征和语义信息并生成描述语句.在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然.本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675,在BLEU@4上达到0.24,在CIDEr(consensus-based image description evaluation)上达到0.734,在ROUGE(recall-oriented understudy for gisting evaluation)上达到0.51.实验结果表明了本文模型的可行性与先进性.

自上而下注意力、自下而上注意力、图像描述生成、生成式对抗网络(GAN)、强化学习(RL)

22

TP391.4(计算技术、计算机技术)

甘肃省自然科学基金;甘肃省自然科学基金;陇原青年创新创业人才项目;甘肃省高等学校创新能力提升项目;甘肃政法大学校级重大科研创新项目;司法鉴定中心科研资助项目;甘肃省青年博士基金项目

2023-04-13(万方平台首次上网日期,不代表论文的发表时间)

共8页

14313-14320

相关文献
评论
暂无封面信息
查看本期封面目录

科学技术与工程

1671-1815

11-4688/T

22

2022,22(32)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn