期刊专题

权吸引子传播算法及其在文本聚类中的应用

引用
吸引子传播算法(affinity propagation, AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation, WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.

吸引子传播算法、相似特征集、排斥特征集、仲裁特征集、文本聚类

47

TP181(自动化基础理论)

国家自然科学基金项目60673023,10872077,60703025;国家"八六三"高技术研究发展计划基金项目2009AA02Z307;吉林省科技发展基金项目20080708,20090152;内蒙古自然科学基金项目20080404MS0908;内蒙古民族大学博士科研启动基金项目BS191;吉林大学研究生创新基金项目20091024

2010-11-11(万方平台首次上网日期,不代表论文的发表时间)

共8页

1733-1740

暂无封面信息
查看本期封面目录

计算机研究与发展

1000-1239

11-1777/TP

47

2010,47(10)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn