基于距离和权重改进的K-means算法

引用

摘要：

K-means聚类算法简单高效,应用广泛.针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法.该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数τi找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到k个初始聚类中心.在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好.

关键词：数据挖掘、K-means算法、初始聚类中心、加权欧式距离、权重

所属期刊栏目：56

分类号：TP301(计算技术、计算机技术)

资助基金：国家自然科学基金;中国博士后科学基金;陕西省高校科协青年人才托举计划

在线出版日期：2020-12-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：87-94

英文信息展示

期刊专题