期刊专题

关键词自动提取方法的研究与改进

引用
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一.首先分析了TFIDF算法中存在的不足,即IDF(InverseDocument Frequency)权值中没有考虑特征词在类内以及类别间的分布情况.因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确.通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF.实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词.实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法.

关键词提取、特征权重、TFIDF、DI-TFIDF

41

TP391.1(计算技术、计算机技术)

湖南省教育厅一般项目09C887:基于语义网的网络教学资源检索系统研究资助

2014-07-29(万方平台首次上网日期,不代表论文的发表时间)

共4页

204-207

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

41

2014,41(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn