PHCC:一种处理稀疏变化的封闭数据立方体算法
完全数据立方体是一种需要在数据集上对属性列进行上卷聚集运算的复杂模型,而封闭数据立方体是一种对应的高效压缩模型.近年来海量数据管理系统的发展使得在大数据上进行数据立方体的计算成为可能,但是大数据环境中的数据可能稀疏也可能密集,因此,要求在不同的数据稀疏程度下算法都要有稳定的表现.面对这样的要求,提出了一种基于大数据环境的封闭数据立方体并行化方法,首先通过构造2种树结构进行本地封闭数据子立方体的构造,然后利用位运算的方式在遍历树结构的同时进行封闭数据立方体的判断和聚集运算,最后经过合并得到查询的最终结果.并且通过在大数据中进行对比实验证明混合并行封闭数据立方体(parallel hybrid closed cubing,PHCC)算法能够满足在稀疏数据变化的数据中进行稳定聚集运算的条件.
封闭数据立方体、大数据、树结构、Mapreduce、并行化计算
50
TP391(计算技术、计算机技术)
国家自然科学基金项目60973002,61170003;国家“八六三”高技术研究发展计划基金项目2012AA011002;“核高基”国家科技重大专项基金项目2010ZX01042-002-002-02,2010ZX01042-001-003-05
2014-05-04(万方平台首次上网日期,不代表论文的发表时间)
共9页
85-93