期刊专题

10.3969/j.issn.0490-6756.2020.01.008

基于改进Simhash虚拟机镜像去重方法

引用
在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程度上导致了镜像内部冗余率较高.其次,不同的虚拟机镜像可能运行了相同的操作系统和应用程序,使得镜像之间同样存在较多的重复数据.针对海量虚拟机镜像,传统的去重策略将产生巨大的时间开销,同时会消耗巨大的内存空间和CPU 资源,影响数据中心的性能.提出一种基于改进Simhash算法的海量虚拟机镜像多级去重方法,将一个完整的镜像文件分割为操作系统镜像段和应用数据镜像段,同时提取各部分的特征值,利用DBSCA N(density-based spatial clustering of ap-plications w ith noise)聚类算法完成对镜像段的分组,将相似度较高的镜像段聚为一类,从而将全局去重分解为规模较小且重复率较高的分组内部去重,实现了指纹索引数据完全存放于内存中的重复数据删除,大幅减少了磁盘I/O次数,达到缩短去重时间的目的.

云计算、重复数据删除、改进Simhash算法、虚拟机镜像

57

TP309.3(计算技术、计算机技术)

国家重点研发计划;国家自然科学基金;四川省重点研发项目

2020-03-20(万方平台首次上网日期,不代表论文的发表时间)

共9页

57-65

暂无封面信息
查看本期封面目录

四川大学学报(自然科学版)

0490-6756

51-1595/N

57

2020,57(1)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn