DOI：10.16652/j.issn.1004-373x.2020.08.014

基于Spark的聚类算法优化与实现

引用

摘要：

在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响.受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化.首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题.整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数据进行处理,提升数据处理的准确度和算法的时间效率;同时利用KL散度作为数据聚类距离指标,以充分考虑数据内部蕴藏的信息,使得聚类的质量得到了提升.最后通过一个实验来验证所提算法的有效性.

关键词：聚类算法优化、Spark、数据分布分析、数据聚类、聚类分析、数据处理

所属期刊栏目：43

分类号：TN911-34;TP301.6

资助基金：四川省科技厅科技支撑项目;四川省教育厅科研资助项目

在线出版日期：2020-06-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：52-55,59

英文信息展示

期刊专题