一种并行的加速k-均值聚类方法

引用

摘要：

针对传统k-均值聚类方法不能有效处理海量数据聚类的问题，该文提出一种基于并行计算的加速k-均值聚类（K-means clustering based on parallel computing, Pk-means）方法。该方法首先将海量的聚类样本随机划分为多个独立同分布的聚类工作集，并在每个工作集上并行进行传统k-均值聚类，并得到相应的聚类中心和半径，通过衡量不同子集聚类结果的关系，对每个工作集中聚类得到的子类进行合并，并对特殊数据进行二次归并以校正聚类结果，从而有效处理海量数据的聚类问题。实验结果表明，Pk_means方法在大规模数据集上在保持聚类效果的同时大幅度提高了聚类效率。

关键词：K-均值聚类、并行计算、并行k-均值聚类、工作集、效率

分类号：TP18(自动化基础理论)

在线出版日期：2013-07-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：4299-4302

英文信息展示

期刊专题