XCluster:基于聚类支持查询的XML多文档压缩方法
XML已成为各种网络应用中数据存储和数据交换的标准.XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML 数据存储、交换和处理的代价.对XML文档进行压缩可以在一定程度上解决这个问题.但现有XML压缩方法大都仅压缩单文档中的冗余信息.利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster.XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类;然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容,并根据其数据类型进行相应编码压缩.实验结果表明,在真实和生成的XML多文档数据集上,XCluster比XGrind和XQilla具有更好的压缩效果和查询效率.
树型XML、XML压缩、pq-gram、层次聚类、查询处理
47
TP391(计算技术、计算机技术)
国家"九七三"重点基础研究发展计划基金项目2006CB303000;国家自然科学基金重点项目60533110;国家自然科学基金项目60703012,60773068;黑龙江省青年科技专项资金项目QC06C033;国家"八六三"高技术研究发展计划基金项目2009AA01Z149;NSFC/RGC联合科研基金项目60831160525
2010-06-22(万方平台首次上网日期,不代表论文的发表时间)
共11页
804-814