10.3969/j.issn.1002-137X.2012.01.031
一种中文微博新闻话题检测的方法
微博的迅猛发展带来了另一种社会化的新闻媒体形式.提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题.为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点.在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题.
微博、新闻、话题检测、聚类
39
TP391(计算技术、计算机技术)
国家自然科学基金项目60970061,61075056,61103067
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
138-141