10.3772/j.issn.1673-2286.2019.08.003
基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证.通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法.将该方法与文档频率法、信息增益法及TF-IDF 3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性.通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景.
特征抽取、TF-IDF、卡方统计、文本分类、农业科技文献
TP391;G250(计算技术、计算机技术)
国家社会科学基金项目"科技论文全景式摘要知识图谱构建与应用研究"19BTQ61;中国农业科学院科技创新工程项目CAAS-ASTIP-2016-AII;中国工程科技知识中心建设项目CKCEST-2018-1-15
2019-10-21(万方平台首次上网日期,不代表论文的发表时间)
共7页
18-24