DOI：10.3969/j.issn.1006-2475.2019.08.006

基于MapReduce框架下的K-means聚类算法的改进

引用

摘要：

针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型.首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定κ值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度.实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.

关键词：K-means算法、相异度函数、MapReduce模型

分类号：TP181;TP301.6(自动化基础理论)

资助基金：国家自然科学基金资助项目61074005;辽宁省高等学校优秀科技人才支持计划项目LR2012005

在线出版日期：2019-08-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：28-32,43

英文信息展示

期刊专题