加权的自适应相似度度量

引用

摘要：

聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.

关键词：聚类分析、相似度度量、谱聚类、多密度聚类簇、离群点

所属期刊栏目：50

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家"九七三"重点基础研究发展计划基金项目2007CB311002;国家自然科学基金重点项目61033013;国家自然科学基金重大项目90820013;国家自然科学基金项目60905029

在线出版日期：2013-10-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1876-1882

英文信息展示

期刊专题