基于依存句法分析的微博主题挖掘模型研究
近年来,微博成为人们获取与发布信息的重要方式,每天有大量微博数据产生,对其进行热点主题挖掘意义重大.数据挖掘中的聚类分析是挖掘热点主题的重要方法,但由于篇幅限制,传统聚类效果有限.本文据此提出用依存句法分析来改进传统文本相似矩阵,以提高聚类准确性.首先采用传统文本处理方法构建文本相似矩阵;再利用依存句法分析句子的结构,获取微博信息的依存树,找到有效依存词对,并据此计算文本相似度,构建另一个相似矩阵.综合两个矩阵得到更准确的微博文本相似矩阵,在此基础上运行聚类算法,挖掘出热点主题.最后根据评论数和转发数挖掘出重要主题与重要微博,完成微博主题的深入分析.
热点主题、依存句法分析、依存树
33
G254(图书馆学、图书馆事业)
国家自然科学基金71273194
2015-10-10(万方平台首次上网日期,不代表论文的发表时间)
61-65