10.3969/j.issn.1002-1965.2019.06.023
基于词频均值波动和概率语言模型的 短文本热点主题探测研究
[目的/意义]针对短文本词语特征向量稀疏的问题,提出利用突然爆发现象和词语共现概率现象进行热点主题探测研究的新视角.[方法/过程]以此为目标建立了一个分析框架,以词频均值波动模型发现短文本中的热点词,以概率语言模型发现主题词,再对二者结果集合进行相似度计算实现热点主题的探测与展示.[结果/结论]通过对较高热度噪声词的过滤以及热点事件词的发现实现热点主题的探测.通过对比谷歌趋势的结果,准确率达到82.67%,证明模型有效.本研究对短文本热点主题探测的理论和实践研究具有一定参考价值.
短文本、热点主题探测、词频均值波动模型、概率语言模型
38
G356.8(情报学、情报工作)
国家社会科学基金重点项目"大数据环境下的计算型情报分析方法与技术研究"14ATQ005;国家社会科学基金重大项目"大数据时代知识融合的体系架构、实现模式及实证研究"15ZDB129
2019-06-21(万方平台首次上网日期,不代表论文的发表时间)
共7页
152-158