10.3778/j.issn.1002-8331.1203-0250
基于隐含语义分析的微博话题发现方法
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。
隐含语义分析、向量空间模型、话题发现、微博、两阶段聚类
TP393(计算技术、计算机技术)
重庆市自然科学基金No.cstc2011jjA40023。
2014-01-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
96-100