10.3969/j.issn.1006-2475.2015.03.010
一种改进的k-means文本聚类优化方法
提出一种改进的k-means文本聚类优化方法k-meansSC,将待聚类文档集分词处理后提取主要词条集,并分别采用布尔函数、TFIDF函数表示文本特征向量,通过实验对比它们各自的优缺点。同时基于该词条集构建支持度矩阵与置信度矩阵,以此定义相似度计算公式,并在不同聚类个数条件下详细分析了该公式与其他距离计算公式的迭代次数及错误函数的表现情况,实验结果表明,在一定条件下采用TFIDF型文本特征向量能有效地提高运行效率及聚类有效性。
k-means、相似度、文本聚类、支持度、置信度
TP311(计算技术、计算机技术)
江苏省自然科学基金资助项目BK2012209;苏州市科技发展计划项目SYG201409
2015-04-10(万方平台首次上网日期,不代表论文的发表时间)
共5页
48-51,56