期刊专题

10.3772/j.issn.1673-2286.2019.08.003

基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取

引用
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证.通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法.将该方法与文档频率法、信息增益法及TF-IDF 3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性.通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景.

特征抽取、TF-IDF、卡方统计、文本分类、农业科技文献

TP391;G250(计算技术、计算机技术)

国家社会科学基金项目"科技论文全景式摘要知识图谱构建与应用研究"19BTQ61;中国农业科学院科技创新工程项目CAAS-ASTIP-2016-AII;中国工程科技知识中心建设项目CKCEST-2018-1-15

2019-10-21(万方平台首次上网日期,不代表论文的发表时间)

共7页

18-24

相关文献
评论
暂无封面信息
查看本期封面目录

数字图书馆论坛

1673-2286

11-5359/G2

2019,(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn