10.3969/j.issn.1002-1965.2015.06.020
微博热词抽取及话题发现研究
旨在实践一种方法,能从大量散乱的微博语料中快速抽取热点词语并从中形成话题。首先参考文本串的词频、内部聚合度、粘联度这三个统计特征判断文本串是否成词,直接从样本语料中抽取出高频词。然后根据这些高频词在不同时间窗口的出现频率筛选出实时热词,最后利用词共现确定热词间的关联度,将热词聚类形成热点话题。实验证明,该算法简单易行,在话题发现中取得了良好的效果。
微博、微博热词、话题发现、词共现
G206(信息与传播理论)
国家自然科学基金项目“面向海量数据语义标注众包的任务管理方法研究”71401096;教育部人文社会科学基金资助项目“面向用户兴趣基于本体的网络舆情研判体系研究-以论坛为例”10YJC860010;山东省高校人文社会科学研究计划项目“云计算可持续发展的关键影响因素及对策研究”J13WG16。
2015-07-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
109-113,157