基于语义相似性的跨模态图文内容筛选存储机制研究

引用

摘要：

随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage,CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98％的性能下,读取延迟相对降低了99.07％～99.77％.

关键词：语义管理、Hash码元数据、元数据图谱、存储机制、读带宽

所属期刊栏目：58

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金青年科学基金项目;国家自然科学基金创新群体项目

在线出版日期：2021-03-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共18页

页码：338-355

英文信息展示

期刊专题