10.3969/j.issn.1000-0135.2005.02.010
基于ⅡG和LSI组合特征提取方法的文本聚类研究
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类.从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83.在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率.
改进的信息增益(ⅡG)、潜在语义索引(LSI)、特征提取、聚类
24
G2(信息与知识传播)
浙江省教育厅资助项目20040997
2005-07-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
203-209