期刊专题

10.16383/j.aas.c190279

基于显著性特征提取的图像描述算法

引用
图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向,本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism,SFEM),能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测,有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题.SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分:全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征,并整合这些特征到全局显著性视觉向量中;即时显著性特征提取器能够根据语言模型的需要,从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征.本文在MS COCO(Mi-crosoft common objects in context)数据集上对SFEM进行了评估,实验结果表明SFEM能够显著提升基准模型(baseline)生成图像描述的准确性,并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型,在时间性能上也大幅领先空间注意力模型.

图像描述、显著性特征提取、语言模型、编码器、解码器

48

TP391;TP181;TN911.73

陕西省自然科学基础研究计划项目;国家重点研发计划

2022-04-24(万方平台首次上网日期,不代表论文的发表时间)

共12页

735-746

相关文献
评论
暂无封面信息
查看本期封面目录

自动化学报

0254-4156

11-2109/TP

48

2022,48(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn