10.16559/j.cnki.2095-2295.2016.03.012
基于Hadoop平台的K-means聚类算法优化研究
针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法,该算法采用Canopy算法和余弦相似度度量来改善K-means算法在确定初始聚类中心的盲目性,采用并行计算框架对算法并行扩展,使之能够适应海量数据处理.实验表明,基于Hadoop平台的CK-means并行算法具有更好的聚类质量,在处理海量数据时具有良好的加速比和可扩展性.
Hadoop、Canopy算法、聚类算法
35
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61562065;内蒙古自然科学基金资助项目2015MS0622,2016MS0609
2016-11-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
264-268