10.3778/j.issn.1002-8331.1511-0156
基于聚类集成的微博话题发现方法
微博中短文本、用语不规范和大量噪音等特性使得传统话题发现方法不能很好地从中获取新话题.针对微博以上特性和话题动态性提出一种基于聚类集成的微博话题发现方法,该方法考虑微博发布的非线性时间因子,采用改进的K-Means方法分别融合微博的各个特性构造其对应的基聚类器,并评估各基聚类器之间的有效性和差异性,以此设置集成投票权值并最终进行聚类集成.实验对比结果表明,该方法将微博发现话题的准确性提升约9.5%,能够更有效地探测到新话题.
短文本、噪音、话题发现、动态性、非线性时间、基聚类器、聚类集成
53
TP391(计算技术、计算机技术)
国家自然科学基金81360230,81560296
2017-05-17(万方平台首次上网日期,不代表论文的发表时间)
共6页
81-86