10.3969/j.issn.1671-1815.2021.19.032
基于空间分布优选初始聚类中心的改进K-均值聚类算法
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.
海量数据集;优化选择;数据集密度;迭代次数
21
TP301.6(计算技术、计算机技术)
国家自然科学基金青年科学基金;山西省自然科学基金
2021-08-10(万方平台首次上网日期,不代表论文的发表时间)
共7页
8094-8100