DOI：10.3778/j.issn.1002-8331.2011.36.037

结合概率潜在语义分析的文本谱聚类方法研究

引用

摘要：

传统谱聚类的相似矩阵建立在VSM(Vector Space Model)之上,该模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象.针对这一问题,提出一种用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)来提取文本中隐含语义信息的方法,并构建文本集的相似矩阵,从语义的角度考虑了文本之间的相关性.实验结果表明,利用该方法得到的聚类精度有较大提高,结果要好于传统的谱聚类算法,从而验证了该方法的有效性.

关键词：文本聚类、概率潜在语义分析、谱聚类、相似矩阵

所属期刊栏目：47

分类号：TP391.1(计算技术、计算机技术)

资助基金：中央高校研究生科技创新基金CDJXS11180012

在线出版日期：2012-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：134-136,179

英文信息展示

期刊专题