目标提取与哈希机制的多标签图像检索

引用

摘要：

目的哈希是大规模图像检索的有效方法.为提高检索精度,哈希码应保留语义信息.图像之间越相似,其哈希码也应越接近.现有方法首先提取描述图像整体的特征,然后生成哈希码.这种方法不能精确地描述图像包含的多个目标,限制了多标签图像检索的精度.为此提出一种基于卷积神经网络和目标提取的哈希生成方法.方法首先提取图像中可能包含目标的一系列区域,然后用深度卷积神经网络提取每个区域的特征并进行融合,通过生成一组特征来刻画图像中的每个目标,最后再产生整幅图像的哈希码.采用Triplet Loss的训练方法,使得哈希码尽可能保留语义信息.结果在VOC2012、Flickr25K和NUSWIDE数据集上进行多标签图像检索.在ND-CG(normalized discounted cumulative gain)性能指标上,当返回图像数量为1 000时,对于VOC2012,本文方法相对于DSRH(deep semantic ranking hashing)方法提高2～4个百分点,相对于ITQ-CCA(iterative quantization-canonical cor-relation analysis)方法能提高3～6个百分点;对于Flickr25,本文方法比DSRH方法能提高2个左右的百分点;对于NUSWIDE,本文方法相对于DSRH方法能提高4个左右的百分点.对于平均检索准确度,本文方法在NUSWIDE和Flickr25上能提高2～5个百分点.根据多项评价指标可以看出,本文方法能以更细粒度来精确地描述图像,显著提高了多标签图像检索的性能.结论本文新的特征学习模型,对图像进行细粒度特征编码是一种可行的方法,能够有效提高数据集的检索性能.

关键词：图像检索、卷积神经网络、哈希、多标签

所属期刊栏目：22

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目U1435219National Natural Science Foundation of China U1435219

在线出版日期：2017-03-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：232-240

英文信息展示

期刊专题