期刊专题

10.3724/SP.J.1089.2018.16825

结合视觉属性注意力和残差连接的图像描述生成模型

引用
使机器自动描述图像一直是计算机视觉研究的长期目标之一.为了提高图像内容描述模型的精度,提出一种结合自适应注意力机制和残差连接的长短时间记忆网络(LSTM)的图像描述模型.首先根据pointer-net网络改进基本LSTM结构,增加记录图像视觉属性信息的单元;然后利用改进的LSTM结构,设计基于图像视觉语义属性的自适应注意力机制,自适应注意力机制根据上一时刻模型隐藏层状态,自动选择下一时刻模型需要处理的图像区域;此外,为了得到更紧密的图像与描述语句之间映射关系,构建基于残差连接的双层LSTM结构;最终得到模型能够联合图像视觉特征和语义特征对图像进行内容描述.在MSCOCO和Flickr30K图像集中进行训练和测试,并使用不同的评估方法对模型进行实验验证,结果表明所提模型的性能有较大的提高.

图像内容描述、深度神经网络、视觉注意力、残差连接

30

TP391.41(计算技术、计算机技术)

2018-08-27(万方平台首次上网日期,不代表论文的发表时间)

共8页

1536-1542,1553

暂无封面信息
查看本期封面目录

计算机辅助设计与图形学学报

1003-9775

11-2925/TP

30

2018,30(8)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn