10.3969/j.issn.1671-1815.2017.15.015
基于MapReduce的并行子空间聚类算法
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapRe-duce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR).该算法将串行聚类算法用作插件,具有很好的通用性.在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性.
子空间聚类、并行聚类、MapReduce、高维数据
17
TP311.1(计算技术、计算机技术)
2017-11-03(万方平台首次上网日期,不代表论文的发表时间)
共7页
104-110