权吸引子传播算法及其在文本聚类中的应用
吸引子传播算法(affinity propagation, AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation, WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.
吸引子传播算法、相似特征集、排斥特征集、仲裁特征集、文本聚类
47
TP181(自动化基础理论)
国家自然科学基金项目60673023,10872077,60703025;国家"八六三"高技术研究发展计划基金项目2009AA02Z307;吉林省科技发展基金项目20080708,20090152;内蒙古自然科学基金项目20080404MS0908;内蒙古民族大学博士科研启动基金项目BS191;吉林大学研究生创新基金项目20091024
2010-11-11(万方平台首次上网日期,不代表论文的发表时间)
共8页
1733-1740