基于Spark平台的K-means聚类算法改进及并行化实现

引用

摘要：

针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进.同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现.单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行.

关键词：K-means、聚类、Spark、并行化

分类号：TP3;TN9

资助基金：浙江省自然科学基金LY13F010011;浙江省科技厅重大专项2014NM002

在线出版日期：2016-03-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：44-50

英文信息展示

期刊专题