10.3969/j.issn.1002-0314.2013.03.013
大数据时代基于统计特征的情报关键词提取方法
为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,文章提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法.该算法采用词语TfDf指标的离散系数公式来剔除噪音词,构建基于词偏度、词语位置权重信息和词频-逆向文本频率的评估函数来度量关键词的重要性.实验结果表明该算法优于传统方法,在大数据时代网络情报监测中具有广泛的应用价值.
大数据、关键词提取、词偏度、网络情报监测
TP3;R44
2013-07-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
64-68