10.3969/j.issn.1002-1965.2015.04.030
基于互信息的话题特征选择方法研究
特征选择是舆情监测系统构建的关键步骤之一,好的特征选择方法可以在降低系统时间消耗的同时,提高舆情监测的准确性。针对话题特征提取方法ITF-IDF没有考虑类别信息的缺点,尝试将互信息用于话题特征提取,提出改进的互信息计算方法CMI和DCMI。 CMI方法融入了聚类思想,对新闻报道进行分组验证, DCMI在CMI的基础上,将时间信息量化为时间距离,实现特征互信息的动态更新。实验结果显示,DCMI的性能明显优于基本互信息方法和ITF-IDF方法。
互信息、话题、特征提取、CMI、DCMI、时间信息
G350(情报学、情报工作)
河北省自然科学基金项目“基于贝叶斯网络的话题识别和追踪方法研究”F2015201142;河北省自然科学基金项目“基于本体的贝叶斯网络信息检索模型扩展”F2011201146。
2015-05-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
160-164