DOI：10.16652/j.issn.1004-373x.2020.15.029

基于云计算技术的大规模数据聚类分析

引用

摘要：

考虑到传统大规模数据聚类分析算法收敛速度较慢的问题,提出一种基于云计算技术的大规模数据聚类分析算法.定义云空间内的数据变量,计算数据点密度,以计算出的密度数据为基准,整合为两个不同的数据集合,不断循环删除集合内局部密度低于平均密度的离群点,得出聚类中心.筛选远离聚类中心的点,计算数据点与聚类中心的相似系数,将保留下来的数据点划分为聚类区域,采用层次分配方法将聚类数据点分配到聚类区域中,完成大规模数据的聚类分析.实验结果表明,与传统聚类分析方法相比,所提聚类分析算法的收敛速度最高可达10 mm/s,收敛速度更快,说明该算法的收敛效果较好.

关键词：云计算技术、大规模数据、聚类中心、相似系数、数据点密度、收敛速度

所属期刊栏目：43

分类号：TN911.1-34;TP181

在线出版日期：2020-08-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：123-126

英文信息展示

期刊专题