10.3969/j.issn.1002-1965.2014.10.022
基于正态分布的词频分析法高频词阈值研究
词频分析法高频关键词或主题词的界定是开展信息分析的重要基础。首先,在文献统计分析的基础上,总结了目前词频分析法高频词确定的四种方法:TOPN方法、WF>=M方法、%WF=P方法以及T计算方法,这些方法存在着经验性、随意性、理论基础和适用性上的问题。接着,通过实证方法,验证了关键词和主题词在文献库中的分布符合正态分布,并根据正态分布的特性,提出了词频分析法高频词阈值的F计算方法。最后,在多个数据样本基础上,将F方法与T方法进行了对比分析,认为基于正态分布的高频词阈值F计算方法在理论基础和适用性上都能达到较好的效果。
词频分析法、正态分布、高频词、齐普夫定律
G350(情报学、情报工作)
2014-11-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
129-136