基于隐含语义分析的微博话题发现方法

引用

摘要：

随着微博的大量普及和关注度的不断提高，微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型（VSM）文本表示方法存在高维度、稀疏，以及同义多义问题，导致难以准确度量文本相似度，提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本，用隐含语义分析（LSA）对数据集进行建模；用层次聚类的CURE算法确定初始类中心；用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。

关键词：隐含语义分析、向量空间模型、话题发现、微博、两阶段聚类

分类号：TP393(计算技术、计算机技术)

资助基金：重庆市自然科学基金No.cstc2011jjA40023。

在线出版日期：2014-01-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：96-100

英文信息展示

期刊专题