结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究

引用

摘要：

聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用.通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来.作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点.然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题.文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans.该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更新偏离实际位置的初始中心,因而比传统聚的类算法更加精确.为了获得最佳聚类效果,文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS.实验结果表明,所提聚类方法对各种类型的数据集都是有效的.

关键词：聚类算法;聚类有效性指标;最佳类簇数;类簇中心;数据挖掘

所属期刊栏目：49

分类号：TP181(自动化基础理论)

资助基金：安徽省自然科学基金面上项目2008085MF188

在线出版日期：2022-01-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：121-132

英文信息展示

期刊专题