10.3778/j.issn.1002-8331.2011.36.037
结合概率潜在语义分析的文本谱聚类方法研究
传统谱聚类的相似矩阵建立在VSM(Vector Space Model)之上,该模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象.针对这一问题,提出一种用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)来提取文本中隐含语义信息的方法,并构建文本集的相似矩阵,从语义的角度考虑了文本之间的相关性.实验结果表明,利用该方法得到的聚类精度有较大提高,结果要好于传统的谱聚类算法,从而验证了该方法的有效性.
文本聚类、概率潜在语义分析、谱聚类、相似矩阵
47
TP391.1(计算技术、计算机技术)
中央高校研究生科技创新基金CDJXS11180012
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
134-136,179