10.3772/j.issn.1000-0135.2012.01.011
基于学术文献同被引分析的K-means算法改进研究
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.
K-means算法、K值、初始聚类中心、同被引、文献聚类
31
G25;TP3
国家社科基金项目"中文学术信息检索系统相关性集成研究"10CTQ027;教育部人文社会科学研究规划基金项目"面向用户的相关性标准及其应用研究"07JA870006;中国科学技术信息研究所合作研究项目的资助
2012-02-27(万方平台首次上网日期,不代表论文的发表时间)
共13页
82-94