期刊专题

10.3778/j.issn.1002-8331.1902-0246

Simhash算法在文本去重中的应用

引用
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash).该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析.仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果.

Simhash、信息熵、词频-逆向文件频率、权重优化、文本去重

56

TP301(计算技术、计算机技术)

国家重点研发计划;四川省教育厅项目;四川省高校科研创新团队项目;四川省学术和技术带头人培养支持经费资助项目;四川省应用基础项目;四川省重点研发计划项目;四川省科技支撑计划项目

2020-06-10(万方平台首次上网日期,不代表论文的发表时间)

共6页

246-251

暂无封面信息
查看本期封面目录

计算机工程与应用

1002-8331

11-2127/TP

56

2020,56(11)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn